Analys av bostadsrättspriset i Stockholms innerstad



Relevanta dokument
Regressionsanalys av huspriser i Vaxholm

Linjär regressionsanalys. Wieland Wermke

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Statistik och epidemiologi T5

Regressionsanalys av lägenhetspriser i Spånga

Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

NÄR SKA MAN SÄLJA SIN BOSTAD?

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Multipel Regressionsmodellen

Prediktion av bostadsrättspriser i Stockholms innerstad

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F4

Resultatet läggs in i ladok senast 13 juni 2014.

Dekomponering av löneskillnader

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden

Lösningar till SPSS-övning: Analytisk statistik

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Föreläsning 12: Regression

Föreläsning 7 och 8: Regressionsanalys

Frisörer och Faktorer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

ARIMA del 2. Patrik Zetterberg. 19 december 2012

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning 4. Kap 5,1-5,3

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

10.1 Enkel linjär regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

F19, (Multipel linjär regression forts) och F20, Chi-två test.

LABORATION 3 - Regressionsanalys

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Avd. Matematisk statistik

Uppgift 1. Deskripitiv statistik. Lön

LABORATION 3 - Regressionsanalys

Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Prediktion av villapris

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14

Regressions- och Tidsserieanalys - F7

Korrelation och autokorrelation

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Skrivning i ekonometri torsdagen den 8 februari 2007

Matematisk statistik, Föreläsning 5

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

PM NÄTAVGIFTER Sammanfattning.

Working Paper Series

Sconesbakning. Sofi Bergdahl Anna Kers Johanna Nyberg Josefin Persson

Multipel regression och Partiella korrelationer

Tentamen i matematisk statistik

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Metod och teori. Statistik för naturvetare Umeå universitet

Regressionsanalys av NHL-statistik

MSG830 Statistisk analys och experimentplanering - Lösningar

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

En empirisk studie om sambandet mellan inspektionsbesök och kemtvättars miljöbeteende i Stockholm

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

ÖVNINGSUPPGIFTER KAPITEL 9

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

TENTAMEN KVANTITATIV METOD (100205)

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression

Konsekvenser av indelningar i områden för redovisning av försök i svensk sortprovning. Johannes Forkman, Saeid Amiri and Dietrich von Rosen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Restid och resebeteende

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, Se följande uppslag.

Transkript:

Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik Skolan för Teknikvetenskap Kungliga Tekniska Högskolan (KTH) Stockholm, Sweden 21 maj 2015

Förord Denna uppsats är ett kandidatexamensarbete i Teknisk Fysik på Kungliga Tekniska Högskolan. Rapporten innefattar 15 högskolepoäng och genomfördes på Institutionen för Matematisk Statistik. Jag vill rikta min tacksamhet till Lars- Erik Ericson på Value Guard och Johan Winte på Erik Olsson för deras bidrag och råd som har gjort denna studie möjlig. Jag vill också tacka min handledare Boualem Djehiche som har visat stöd under hela kandidatexamensarbetet.

Sammanfattning I denna studie används en multipel linjär regression för att analysera ett antal variablers inverkan på bostadsrättspriset i Stockholms innerstad. Resultatet kan användas till att prediktera och betrakta procentuella förändringar för slutpriset av en bostadsrätt i Stockholms innerstad. Fem olika modeller konstruerades varefter de analyserades och jämfördes. Modellerna konstrueras med hjälp av data för alla sålda bostadsrätter i Stockholms innerstad mellan åren 2010-2014 från fastighetsförmedlingen Erik Olsson. Resultatet av studien visar bland annat att boarean har störst positiv påverkan på slutpriset. Bland stadsdelarna i innerstaden är Östermalm stadsdelen som bidrar mest till ett dyrare bostadsrättspris. Samtliga modeller hade förklaringsgrader på 89% 94%.

Abstract In this study a multiple linear regression was carried out in the interest of analysing a number of variables effect on the final prices of apartments in Stockholm s inner districts. The result may be employed to predict and observe percentage changes on the final price of apartments in Stockholm in the future. Five models were constructed after which they were analysed and compared. The construction of these models were supported by data from the real estate agency Erik Olsson. The result of this study displays that living space have the highest positive influence on the final prices. Among all the inner city districts, Östermalm is the district that contributes the most to the final price growth. All five models had a coefficient of determination between 89% 94%.

Innehåll 1 Inledning 1 1.1 Bakgrund............................... 1 1.2 Mål och Syfte............................. 1 2 Teori 2 2.1 Terminologi.............................. 2 2.2 Regression............................... 2 2.2.1 Antagande.......................... 2 2.2.2 Multipel linjär regression.................. 3 2.2.3 Minstakvadratmetoden................... 4 2.2.4 Hypotesprövning....................... 4 2.3 Tester................................. 4 2.3.1 t-test............................. 4 2.3.2 F-test för allmän signifikans................. 5 2.3.3 p-värde............................ 5 2.4 Variabelselektion........................... 5 2.4.1 Förklaringsgrad R 2 och R 2................. 5 2.4.2 Backward elimination.................... 6 2.4.3 Forward selection....................... 6 2.4.4 Stegvis regression....................... 6 2.4.5 AIC.............................. 6 2.4.6 Transformation av variabler................. 7 2.4.7 Probability-Probability plott................ 7 2.4.8 Extremvärden......................... 7 2.5 Fallgropar............................... 8 2.5.1 Multikolinjäritet....................... 8 2.5.2 Heteroskedasticitet...................... 8 3 Metod 10 3.1 Idé................................... 10 3.2 Datainsamling............................ 10 3.3 Avgränsning.............................. 10 3.4 Modellval............................... 11 3.5 Hypotes................................ 11 4 Genomförande 13 5 Resultat 14 5.1 Försök 1................................ 14 5.2 Försök 2................................ 16 5.3 Försök 3................................ 18 5.4 Försök 4................................ 20 5.5 Försök 5................................ 22

6 Diskussion 25 6.1 Analys av Försök 1.......................... 25 6.2 Analys av Försök 2.......................... 25 6.3 Analys av Försök 3.......................... 25 6.4 Analys av Försök 4.......................... 26 6.4.1 Tillförlitlighet......................... 26 6.5 Analys av Försök 5.......................... 27 6.5.1 Tillförlitlighet......................... 27 6.6 Vidare studier............................. 28 7 Slutsats 29 8 Appendix 31

1 Inledning 1.1 Bakgrund Stockholm utgör ett centrum för Skandinavien. Varje år strömmar människor till Stockholm för att uppleva den rika blandningen av kultur, nöjesliv och den välbevarade naturen. Kombinationen av dessa faktorer och en hållbar infrastruktur har bidragit till att Stockholm nyligen blivit utsedd till en av världens bästa städer [2]. Stockholms alltmera internationella status har lockat investeringar och karriärmöjligheter. Dessa faktorer i kombination med en nedåtgående bolåneränta och en stor efterfråga av bostadsrätter har medfört att bostadsrättspriserna i Stockholm ständigt ökat. [1][3] Ett bostadsköp är, för många, det viktigaste och svåraste beslutet man tar i livet. Oavsett om det gäller en bostadsinvestering eller om ett nytt hem, innebär beslutet med stor risk att skuldsätta sig. Därför är det av stor vikt att vid ett bostadsköp kunna göra en rimlig bedömning av bostadsrättens värde. 1.2 Mål och Syfte Målet med studien är att genom en multipel linjär regressionsanalys behandla en handfull relevanta variabler och undersöka dess inverkan på slutpriset för bostadsrätter i Stockholms innerstad. Syftet med studien är att formulera en tillförlitlig modell för att prediktera slutpriset för en bostadsrätt. 1

2 Teori 2.1 Terminologi För att läsaren ska känna sig bekväm med de notationer och termer som skall användas i texten har här nedan gjort en lista med termer och dess innebörd. Den vanliga modellen för en multipel linjär regression ser ut på följande sätt: y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 +... + β k x ik + ɛ i i = 1, 2,..., n Responsvariabel: även kallad den beroende variabeln betecknas med y eller y i vid flera ekvationer (observationer). Kovariat: som ibland kallas regressor eller den oberoende variabeln har notationen x ik och definieras som den i:te observationen för den k:te oberoende variabeln. Beta: är koefficienterna till kovariaterna och betecknas β. De flesta problemen inom regressionsanalysen är att uppskatta dessa. Dummy-variable: även kallad indikatorvariabel på svenska, är en kovariat som endast antar värdet 1 eller 0. Stokastiska feltermen: eller bara feltermen betecknas med ɛ eller ɛ i vid flera observationer. Denna term finns med i ekvationen ovan för att ta med all information som y i inte kan uttryckas med hjälp av xs. [6] Residual: har notationen e eller mer generellt e i vid flera observationer. Residualen definieras som: e i = y i ŷ i. Notera skillnaden mellan residualen och feltermen. Residualen för den i:te observationen är skillnaden mellan det faktiska värdet y i och det uppskattade värdet ŷ i. Medan feltermen är skillnaden mellan det faktiska värdet y i och väntevärdet av y i. Residualen kan alltså betraktas som en skattning av feltermen.[6] BLUE: står för Best Linear Unbiased Estimator. 2.2 Regression Regressionsanalys är en av många statistiska metoder för att prediktera relationer mellan olika variabler. Fokuset ligger på att uppskatta sambanden mellan utvalda kovariater och responsvariabler. 2.2.1 Antagande För minstakvadrat estimatorn skall vara BLUE (se 2.2.3) för en linjär regressionsmodell behöver följande antagande uppfyllas: 2

1. Feltermerna e i antas ha ett medelvärde lika med 0, med andra ord: E(e i x i1, x i2,..., x ik ) = 0 (1) 2. Feltermerna har en konstant varians σ 2 och är därmed homoskedastiska, alltså: E(e i x i1, x i2,..., x ik ) = σ 2 (2) När data behandlas i verkligheten är det sällan detta krav uppfylls. Vilket leder till ett problem som kallas heteroskedasticitet som diskuteras längre fram i rapporten. 3. Alla förklarande variabler är okorrelerade med feltermen. 4. Feltermerna e i antas vara okorrelerade med varandra. 5. Feltermerna är normalfördelade. 6. Ingen förklarande variabel får vara en perfekt linjär funktion av några av de andra förklarande variablerna. Det får alltså ej förekomma perfekt multikolinjäritet (se 2.5.1). Dessa antagande kallas för Gauss-Markov antaganden och är nödvändiga för att ge lämpliga koefficienter vid användning av minstakvadratmetoden. 2.2.2 Multipel linjär regression Den generella ekvationen för en multipel linjär regressionsmodell ser ut som följande: y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 +... + β k x ik + ɛ i i = 1, 2,..., n (3) Betydelserna av de beteckningar i ekvationen kan hittas i sektionen 2.1. Ekvationen kan med hjälp av matrisnotation uttryckas på följande sätt: där Y = Xβ + ɛ (4) y 1 1 x 11 x 1k β 0 ɛ 1 y 2 Y =., X = 1 x 21 x 2k......, β = β 1., ɛ = ɛ 2. y n 1 x n1 x nk β k ɛ n 3

2.2.3 Minstakvadratmetoden Minstakvadratmetoden eller mer känd som OLS, Ordinary Least Square är en standardmetod för att skatta den teoretiska ekvationen (3). Estimationen av Y ges av: Ŷ = X ˆβ (5) där Ŷ = Y e och e är residualerna (skattningen av ɛ). ˆβ kan uttryckas som: ˆβ = A 1 X T Y (6) som minimerar kvadratsumman av residualerna. Där A = X T X. Den skattade regressionsekvationen blir: y i = β 0 + ˆβ 1 x i1 + ˆβ 2 x i2 +... + ˆβ k x ik i = 1, 2,..., n (7) 2.2.4 Hypotesprövning Hypotesprövning används för att testa om de beräknade β-koefficienterna är statistiskt signifikanta och sanna för den framtagna regressionsmodellen. Vid en hypotesprövning införs en nollhypotes H 0 (oftast den man tror inte är sannolik att inträffa) och en mothypotes H A. Därefter besluts vilken risknivå man vill ha på hypotesprövningen. En risknivå på 5% innebär en risk på 5% att ha fel om H 0 förkastas. Det finns två typer av fel man kan göra inom hypotesprövning. Typ I fel. Förkasta en sann nollhypotes Typ II fel. Förkasta ej en falsk nollhypotes 2.3 Tester 2.3.1 t-test Ett t-test används oftast när enskilda β-koefficienter skall testas för regressionsekvationen (3). I ett tvåsidigt t-test undersöks om varje enskild β bör vara noll. Detta betyder att motsvarande kovariat inte bör ingå i modellen. En matematisk formulering av hypotesen ser ut på följande sätt: H 0 : β = 0 H A : β 0 (8) För att få användbar information från ett t-test krävs att feltermerna i regressionsmodellen måste vara normalfördelade. t-värdet för varje skattad koefficient ˆβ j i ekvationen (7) beräknas enligt: t j = ˆβ j β H0 SE( ˆβ j ) j = 1, 2,..., k (9) I ett tvåsidigt t-test är nollhypotesen oftast H 0 = 0, därmed reduceras ekvation (9) till: ˆβ j t j = SE( ˆβ j = 1, 2,..., k (10) j ) 4

Här är ˆβ j den skattade regressionskoefficienten för den j:te variabeln och SE( ˆβ j ) betecknar den estimerade standardavvikelsen av ˆβ j. Avgörandet för förkastningen av nollhypotesen baseras på t-värdena från regressionen. Dessa jämförs med de kritiska t-värdena t c från en tabell. Det kritiska värdet särskiljer acceptans området från förkastningsområdet. Det kritiska värdet beror på antalet frihetsgrader som ges av n k 1, där n är antalet observationer och k är antalet estimerade koefficienter (β 0 inkluderad). För att H 0 skall förkastas måste följande villkor uppfyllas: t j > t c (11) t-test är begränsad till att endast testa en koefficient i taget. När situationer, som involverar tester av hypoteser med fler än en koefficient, uppstår används ett F-test. [6][7] 2.3.2 F-test för allmän signifikans F-test används oftast för att testa allmän signifikans hos en regressionsmodell. Detta görs genom att undersöka om den övergripande kurvanpassningen för modellen försämras, givet olika restriktioner på modellen, för att överensstämma med nollhypotesen. [6] Nollhypotesen för ett F-test ges av: H 0 : β 1 = β 2 =... = β k = 0 H A : H 0 är inte sant (12) F-värdet för allmän signifikans beräknas enligt: F = (ŷi ȳ) 2 /k e 2 i /(n k 1) (13) För att besluta om att förkasta H 0 måste följande krav uppfyllas: 2.3.3 p-värde F F c (14) p-värdet för ett test beskriver den minsta signifikansnivån där nollhypotesen förkastas. Den beskriver styrkan hos beviset mot nollhypotesen. Givet en signifikansnivå α för ett test och att nollhypotesen inte förkastas vid den nivån. Om p-värdet för testet är mindre eller lika med α förkastas nollhypotesen. [7] 2.4 Variabelselektion 2.4.1 Förklaringsgrad R 2 och R 2 Förklaringsgraden R 2 är ett mått på hur stor del av den estimerade regressionsekvationen förklarar förändringarna hos responsvariabeln. Värdet är alltså ett mått på hur bra ekvationen anpassar mätdatan. Förklaringsgraden för en modell definieras som: R 2 = 1 RSS TSS = 1 5 e 2 i (yi ȳ) 2 (15)

Ur detta samband ses att R 2 måste ligga i intervallet: 0 R 2 1 (16) Ett högt R 2 värde innebär att residualerna minimeras. Detta leder till en bättre skattning av responsvariabeln. Ett stort problem med R 2 är att värdet aldrig kan minska när fler oberoende variabler adderas till modellen. En modell med ett större antal kovariater kommer alltid ha bättre eller lika bra R 2.[6] På grund av detta innebär inte alltid att ett högt R 2 värde har en bättre precision hos modellen. Detta problem kan lösas med att introducera R 2 eller R 2 adj, vilket är R 2 med justerad antal frihetsgrader: R 2 = 1 RSS/(n k 1) TSS/(n 1) = 1 e 2 i /(n k 1) (yi ȳ) 2 /(n 1) (17) 2.4.2 Backward elimination Metoden backward elimination väljer de bästa kovariaterna till en regressionsmodell. Metoden utgår ifrån en modell med alla kovariater inkluderade. Under varje steg i processen elimineras en kovariat med det högsta p-värdet som överstiger en förutbestämd signifikansnivå α crit. Sedan omprövas den nya modellen igen. När alla kovariaters p-värde är mindre än α crit avslutas processen och därmed fås den önskade modellen. 2.4.3 Forward selection Forward selection är en omvänd backward elimination. Här startar en modell utan kovariater, dvs y = β 0. Vid varje körning adderas en kovariat till modellen genom att välja den med lägst p-värde som är mindre än α crit. Processen upprepas tills inga kovariater kan läggas till. 2.4.4 Stegvis regression Denna metod är en kombination av backward elimination och forward selection. Under varje körning kontrolleras att de tidigare inkluderade kovariaterna i regressionsmodellen ger signifikanta utslag med hypotesen β j = 0. De kovariater som inte längre ger signifikans utesluts från modellen. 2.4.5 AIC AIC står för Akaike Information Criterion är en metod för att bestämma vilka variabler som skall ingå i modellen genom att mäta den relativa kvaliten hos regressionsmodellen i frågan. Ekvationen till modellerna ges av följande: ( ) RSS AIC = n ln + 2k (18) n där n är antalet observationer, k är antalet förklarande variabler i modellen och RSS är kvadratsumman av residualerna. Vid jämförelse mellan olika modeller är målet att försöka minimera AIC. [6] 6

2.4.6 Transformation av variabler I vissa fall är det lämpligt att transformera variablerna i regressionsmodellen. Notera att minstakvadratmetoden endast kräver att koefficieterna β j är linjära men tillåter att variablerna att vara icke-linjära. De vanligaste transformationerna är dubbel-log form och semi-log form. Vid dubbel-log form logaritmeras både responsvariabeln och alla eller enstaka kovariater. Detta ger formen: ln(y) = β 0 + β 1 ln(x 1 ) + β 2 ln(x 2 ) +... + β k ln(x k ) + ɛ (19) Denna funktionsform kan tolkas som att en ökning av en kovariat x j med 1% motsvaras av en ökning av responsvariabeln med β j %, när övriga kovariater hålls konstanta. Semi-log form är när logaritmering endast appliceras på responsvariabeln y. Denna funktionsform är mer lämplig vid situationer där en ökning av en kovariat x j medför en förändring i responsvariabeln y med ökad takt. Med andra ord när datan har ett exponentiellt beroende. Semi-log funktionsformen ser ut på följande sätt: ln(y) = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + ɛ (20) Vid en ökning av en kovariat med 1 enhet, när de övriga kovariaterna hålls konstanta, fås en procentuell ökning av responsvariabeln. Responsvariabeln ökar med 100 β j % då en kovariat ökar med 1 enhet. 2.4.7 Probability-Probability plott P-P plott är en grafisk metod för att avgöra om en given datamängd följer en testfördelning genom att plotta deras kumulativa fördelningsfunktioner mot varandra. Detta kan användas för att bland annat undersöka om residualerna är normalfördelade. 2.4.8 Extremvärden Extremvärden utgörs av observationer som har väldigt låga eller väldigt höga värden på responsvariabeln i jämförelse med andra observationer. Extremvärden påverkar skattningen av parametrarna i regressionsmodellen, därför är det viktigt att finna dessa extremvärden i syftet att få en bättre modell. För att ta reda på hur stor påverkan en observation har för modellen används Cook s avstånd. Cook s avstånd är ett mått av effekten på de skattade parametrarna när i:te observationen tas bort från datamängden. Detta beräknas enligt: n l=0 D i = (ŷ l ŷ l(i) ) 2 k MSE där MSE är medelkvadratsumman för residualerna och defineras som: (21) MSE = 1 n (ŷ l ŷ l(i) ) 2 (22) n Om D i > 1 antas den i:te observationen vara ett extremvärden. [4][6] i=1 7

2.5 Fallgropar 2.5.1 Multikolinjäritet Vid perfekt multikolinjäritet uppfylls inte antagandet 6 i sektion (2.2.1). Multikolinjäritet kan beskrivas som förändringen i en kovariat beror på en eller flera av de andra kovariaterna. En konsekvens av multikolinjäritet är att variansen och standardavvikelsen för de estimerade koefficienterna kommer att öka. Ur detta följer en minskning av t-värdet enligt ekvation (9). Hur upptäcks multikolinjäritet? I verkligheten är nästan alla förklarande variabler på något sätt relaterade till varandra. Så frågan är inte huruvida om det finns multikolinjäritet eller inte utan hur allvarlig den är och hur mycket man kan tillåta i en modell. Det enklaste sättet att upptäcka en korrelation mellan två kovariater är att använda korrelationskoefficienten c. Värdet på korrelationskoefficienten ligger mellan 1 < c < 1. Denna metod är dock mycket begränsad för modeller med mer än två kovariater. Korrelationskoefficienten är endast ett tillräckligt men ej nödvändigt test för multikolinjäritet.[6] Ett enkelt och populär metod för att testa multikolinjäritet är att använda Variance Inflation Factor (VIF). VIF är en skattning av hur mycket multikolinjäritet har ökat variansen hos en skattad koefficient ˆβ j. Värdet beräknas genom att först bilda en regressionsmodell med en av kovariaterna som en funktion av de andra kovariaterna: x 1 = α 1 + α 2 x 2 + α 3 x 3 +... + α k x k + v (23) där v är den vanliga feltermen. Sedan kan VIF beräknas för ˆβ j enligt: VIF( ˆβ 1 j ) = 1 R 2 j (24) där R 2 j är förklaringsgraden till ekvationen (23). Ett högt VIF medför en minskning av t-värdet vilket leder till risken att variabeln inte blir signifikant för modellen. En tumregel är att om VIF > 5 så råder allvarlig multikolinjäritet. Det finns tre saker man kan göra för att minska multikolinjäritet. Åtgärderna är följande: Slänga en den överflödiga variabeln, öka antalet observationer eller att inte göra något alls. [6] 2.5.2 Heteroskedasticitet Heteroskedasticitet betyder att observationer från feltermerna e i inte har konstant varians. Detta skapar felaktiga skattningar på koefficienternas varians vilket medför att signifikanstesterna, t-test och F-test, på dessa koefficienter blir inkorrekta. Detta kan resultera i att variablerna i modellen kan bli felaktigt inkluderade eller exkluderade. [6] En metod för att upptäcka heteroskedasticitet är att använda White Test. För detaljer för testet se sidan 279 i boken Introductory Econometrics: A Modern Approach av Wooldridge M. Jeffrey. Ett annat alternativ är att plotta residualerna mot de skattade y-värdena och undersöka om datapunkterna har ett slumpmässigt mönster. Om residualerna är jämnt fördelade runt 0 betyder ett 8

homoskedasticisk beteende. En metod för att åtgärda heteroskedasticitet är att använda White s consistent estimator. I denna studie används transformation av variabler för att få bort heteroskedasticitet. 9

3 Metod 3.1 Idé I början av undersökningen formuleras idéer om vilka variabler (egenskaper) som kan ha stor betydelse för slutpriset på en bostadsrätt. Denna del av undersökningen kräver mycket sunt förnuft och försiktighet när de preliminära variablerna väljs ut. 3.2 Datainsamling När idén är färdigställd och variablerna har valts ut följer datainsamlingen. All data som används i undersökningen har kommit från fastighetsförmedlingen Erik Olsson. Datan innehåller följande variabler: Våning Antal rum Månadsavgift är månadsavgiften som betalas till bostadsföreningen. Geografisk läge anger i vilken stadsdel bostadsrätten ligger. Storlek är arean på bostadsrätten i kvadratmeter. Byggnadsår är året fastigheten byggdes. Försäljningsdatum är dagen bostadsrätten sålts. Visningsdatum är visningsdagen för bostadsrätten. Status är vilken typ av försäljning bostadsrätten har. Pris är slutpriset på bostadsrätten vid försäljningen I studien används endast data från en fastighetsförmedling eftersom varje fastighetsförmedling har olika processer för bostadsförsäljningen och evalueringen av priset en bostad. Datan från olika fastighetsförmedlingar kan därmed ha olika avvikelser. 3.3 Avgränsning Givet tidsramen för denna studien behövdes en avgränsning. Fokuset i denna studie ligger på data mellan åren 2010-2014. Anledningen till valet är att data till de äldre årgångarna oftast saknas och att majoriteten av försäljningarna har också ägt rum under 2010-2014. Dessutom har händelser i världsekonomi mellan 2000-2009 varierat kraftigt vilket kan bidra till en instabilitet till modellen. Undersökningen begränsar också till att alla bostadsrätter ligger i Stockholms innerstad. I tabell 9 i appendix anges stadsdelarna där bostadsrätterna har sålts. 10

3.4 Modellval Modellval är centralt inom regressionsanalysen. Det finns ett flertals metoder, som nämns i sektion 2.4, för att välja en modell som förklarar responsvariabeln. Innan dessa teoretiska metoder tillämpades, valdes responsvariabeln och de oberoende variablerna som tros påverka responsvariabeln. De oberoende variablerna valdes till: månadsavgift, byggnadsår, våning, storlek, antal rum, stadsdel och kvartal. Där stadsdel och kvartal är indikatorvariabler. I denna studie är bostadsrätterna belägna i 16 olika stadsdelar i Stockholms innerstad. Kvartalen är som vanligt indelad i 4 perioder och bestäms av försäljningsdatumet för bostadsrätten. Tanken bakom valet av variabeln stadsdel istället för: avståndet till Stockholms stadskärnan, är dels för att avståndet till Stockholms stadskärna skiljer sig inte avsevärt mycket och anses därför inte lika viktig faktor vid köp av bostadsrätter i delområdena i Stockholms innerstad. Avstånd är dessutom svårt att mäta. Stadsdel är ett lättare mått och anses vara en viktigare faktor eftersom det är känt att bostadsrättspriserna skiljer sig för de olika stadsdelarna. I analysen testas följande tre funktionsformer: Pris = β 0 + β 1 Storlek + β 2 Månadsavgift + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + β m Kvartal + ɛ (25) ln(pris) = β 0 + β 1 Storlek + β 2 Månadsavgift + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + β m Kvartal + ɛ (26) ln(pris) = β 0 + β 1 ln(storlek) + β 2 ln(månadsavgift) + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + β m Kvartal + ɛ (27) där l = 6,..., 20 och m = 21,..., 23. 3.5 Hypotes En hypotes ställs upp innan analysen. Den anger tecknen på koefficienterna till de valda kovariaterna. Låt P = Pris, M = Månadsavgift, B = Byggnadsår, V = Våning, S = Storlek, A = Antal rum, K = Kvartal och G = Stadsdel. Hypotesen på tecknen ges av följande uttryck: P = f( M, ± B, + V, + S, + A, ± K, ± G) + ɛ (28) Tecknen ovanför variablerna indikerar de hypotetiska resonemangen för hur variablerna påverkar priset P. Tecknet för byggnadsår är svår att ha någon hypotes om, det är möjligt att äldre lägenheter bidrar till ett högre slutpris eftersom sekelskiftslägenheterna är väldigt populära. Månadsavgift förväntas ha en negativ inverkan på priset eftersom en högre avgift bidrar till dyrare levnadskostnader i 11

bostadsrätten. En större boarea förväntas att öka priset på en bostadsrätt. Flera rum leder oftast till en större boarea som i sin tur påverkar priset positivt. Därmed bör antal rum också påverka priset positivt. En högre våningsplan bör öka slutpriset eftersom det oftast innebär bättre utsikt och ljussättning. Priserna borde vara högre i stadsdelarna närmast cityområdet, därför borde dessa ha positivt tecken. Stadsdelarna som ligger något längre bort är svårt att hypotisera. Samma svårighet gäller för kvartal. Det är möjligt att under vissa månader, som till exempel sommarperioden, när färre bostäder finns på marknaden, kan leda till en ökad efterfrågan och därmed ökat slutpris. 12

4 Genomförande Hela analysen för studien utförs i programmet Rstudio. Signifikansnivån väljs till α crit = 5%, vilket innebär att det finns en risk på 5% att ha fel om nollhypotesen förkastas. Först görs en stegvis regression med alla variabler som nämndes i sektion 3.4. Processen kontrollerar att alla statistisk signifikanta kovariater behålls i regressionsmodellen. Vidare testas de kvarstående variablerna genom att manuellt bilda olika modeller med olika variabelkombinationer. I analysen används första kvartalet och stadsdelen Fredshäll som benchmark. Antaganden som nämndes i sektion (2.2.1) krävs för att minstakvadratmetoden skall ge användbara resultat. Analysen av dessa antaganden utförs med hjälp av grafiskanalys av residualerna för respektive regressionsmodell. Samtliga analyser utfördes på data mellan åren 2010-2014 där försäljningspriset har normaliserats med januari 2010 som bas, med hjälp av bostadsindexen från Value Guard, för en rättvisare jämförelse. Först rensades alla sålda bostäder som inte ägde rum mellan åren 2010-2014. Därefter togs bostadsrätter bort för de fall där relevant information saknades. Sedan rensades alla bostadsrätter som inte hade statusen: till salu, där försäljningstypen inte var budgivning. Anledningen till detta är att undersökningen skall enbart fokusera på en typ av försäljning för att undvika modellfel. Därefter togs extremvärden i datamängden bort eftersom dessa kan bidra till för låga eller för höga värden för regressionsmodellen. Informationen som exkluderades var liten i förhållande till hela datamängden och därför bör det inte påverka modellens tillförlitlighet avsevärt. 13

5 Resultat 5.1 Försök 1 Med stegvis regression ges första regressionsmodellen av följande: Pris = β 0 + β 1 Storlek + β 2 Månadsavgift + β 3 Våning + + β 4 Byggnadsår + β 5 Antal rum + β l Stadsdel + ɛ (29) En regressionstabellen till den ursprungliga regressionen visas i figur 10 i appendix. Notera att kvartal är insignifikant för slutpriset. Nedan i tabell 1 visas en regressionssammanfattning för modellen med de enbart de signifikanta kovariaterna. I tabellen finns bland annat kovariaternas koefficienter, standardfelen som står inom parentes, t-värden, p-värden och förklaringsgraden. Modell 1 (Intercept) 10971369.35 (620085.97) t=17.69 Storlek 45183.67 (809.95) t=55.79 Månadsavgift 111.04 (11.40) t= 9.74 Våning 43995.24 (4863.05) t=9.05 Byggnadsår 5689.20 (322.99) t= 17.61 Antal rum 204335.30 (20157.25) t=10.14 Gamla Stan 580737.80 (208052.14) t= 2.79 Hjorthagen 209306.43 (84240.17) t= 2.49 Kungsholmen 264846.43 (57735.56) t=4.59 Ladugårdsgärdet 228045.68 (62390.94) t=3.66 Norrmalm 431820.07 (70710.41) t=6.11 Reimersholme 462702.61 (143437.42) t=3.23 Stadshagen 328704.13 (82043.34) t=4.01 Södermalm 176669.93 (56117.44) t=3.15 Vasastaden 369090.86 (56788.69) t=6.50 Östermalm 546502.60 (63969.08) t=8.54 R 2 0.9162 R 2 adj 0.9155 Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 1: Sammanfattning av regression; försök 1 Alla kovariater i försök 1 är statistiskt signifikanta och har samma tecken som hypotesen. Förklaringsgraden till modellen blev R 2 adj = 0.9155 och den skattade standardavvikelsen för residualerna blev 383100 kr. Nedan i 1 visas en residualplott för regressionen. 14

Beroende variabel: Pris Standardiserade Residualer 4 2 0 2 4 6 8 2 1 0 1 2 3 4 5 Standardiserade Skattade Värden Figur 1: Standardiserad residualplott för försök 1 Datapunkterna i figur 1 visar inget slumpmässigt mönster. Det implicerar att residualen inte är konstant. Därmed dras slutsatsen att heteroskedasticitet råder. Vid undersökning av residualernas sannolikhetsfördelning används P-P plott. Resultat visas nedan i figur 2. P P Plott av Standardiserade Residualer Beroende variabel: Pris Förväntad Kumulativ Fördelning 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Observerad Kumulativ Fördelning Figur 2: P-P plott för försök 1 Grafen ovan visar att datapunkterna inte följer den räta linjen. Vilket innebär 15

att residualerna inte uppfyller normalfördelningsantagandet. Vidare utförs ett multikolinjäritetstest på modellen eftersom det misstänks om att storlek och antal rum är korrelerade. VIF används för testet och resultat visas i tabell 2 nedan. x i : Storlek Antal rum Månadsavgift Våning Byggnadsår Stadsdel VIF: 7.324 5.698 3.243 1.162 1.554 1.669 Tabell 2: VIF värden till kovariaterna i försök 1 Ur tabellen ovan observeras att det råder allvarlig multikolinjäritet mellan storlek och antal rum. Därför utesluts variabeln antal rum vid skapandet av den nya modellen. 5.2 Försök 2 Den nya regressionsmodellen ges av: Pris = β 0 + β 1 Storlek + β 2 Månadsavgift + β 3 Våning + + β 4 Byggnadsår + β l Stadsdel + ɛ (30) Som i försök 1 följer nedan en sammanfattning av regressionen. Modell 2 (Intercept) 10162420.68 (628669.35) t=16.17 Storlek 51440.76 (536.14) t=95.95 Månadsavgift 99.00 (11.59) t= 8.54 Våning 43385.96 (4971.33) t=8.73 Byggnadsår 5222.31 (326.83) t= 15.98 Gamla Stan 506252.41 (212568.09) t= 2.38 Hjorthagen 206049.47 (86121.77) t= 2.39 Kungsholmen 224630.07 (58886.07) t=3.82 Ladugårdsgärdet 194564.25 (63695.54) t=3.06 Norrmalm 369670.89 (72018.10) t=5.13 Reimersholme 439660.11 (146623.92) t=3.00 Stadshagen 287898.59 (83775.47) t=3.44 Södermalm 126995.67 (57152.16) t=2.22 Vasastaden 315861.98 (57808.84) t=5.46 Östermalm 507779.60 (65281.68) t=7.78 R 2 0.9133 R 2 adj 0.9127 Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 3: Sammanfattning för regression; försök 2 En minskning av förklaringsgraden observeras men ändringen är ej signifikant. Här blev den skattade standardavvikelsen för residualerna 389500 kr. Nedan visas den standardiserade residualplotten som testar homoskededasticitet. 16

Beroende variabel: Pris Standardiserade Residualer 4 2 0 2 4 6 8 2 1 0 1 2 3 4 5 Standardiserade Skattade Värden Figur 3: Standardiserad residualplott för försök 2 Figur 3 är i liknelse med figur 1, vilket betyder att heteroskedasticitet fortfarande råder. Normalitetsantagandet verifieras i figur 4 nedan. P P Plott av Standardiserade Residualer Beroende variabel: Pris Förväntad Kumulativ Fördelning 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Observerad Kumulativ Fördelning Figur 4: P-P plot för försök 2 Datapunkterna avviker fortfarande någorlunda från den räta linjen, därmed uppfyller residualerna inte normalitetsantagandet. Ett multikolinjäritetstest görs för att säkerhetsställa att ingen multikolinjäritet förekommer i modellen. 17

x i : Storlek Månadsavgift Våning Byggnadsår Stadsdel VIF: 3.073 3.210 1.161 1.526 1.619 Tabell 4: VIF värden till kovariaterna i försök 2 Ingen multikolinjäritet råder i modellen. 5.3 Försök 3 Som en åtgärd till residualernas stora standardavvikelser och heteroskedasticitet logaritmeras responsvariabeln. Den tredje regressionsmodellen ges av följande: ln(pris) = β 0 + β 1 Storlek + β 2 Månadsavgift + β 3 Våning + + β 4 Byggnadsår + β l Stadsdel + ɛ (31) Modell 3 (Intercept) 16.48 (0.21) t=77.54 Storlek 0.015 (0.00018) t=80.78 Månadsavgift 0.000018 (0.0000039) t= 4.73 Våning 0.013 (0.0017) t=8.11 Byggnadsår 0.0013 (0.00011) t= 11.76 Hjorthagen 0.11 (0.03) t= 3.71 Kungsholmen 0.08 (0.02) t=3.93 Ladugårdsgärdet 0.05 (0.02) t=2.32 Lilla Essingen 0.07 (0.03) t= 2.79 Norra Djurgården 0.12 (0.03) t= 3.63 Norrmalm 0.10 (0.02) t=4.25 Reimersholme 0.09. (0.05) t=1.82 Stadshagen 0.06 (0.03) t=2.25 Stora Essingen 0.08 (0.04) t= 2.20 Södermalm 0.04 (0.02) t=2.29 Vasastaden 0.11 (0.02) t=5.68 Östermalm 0.15 (0.02) t=6.79 R 2 0.8919 R 2 adj 0.891 Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05,.p < 0.05 Tabell 5: Sammanfattning för regression; försök 3 Ovan visas som vanligt en sammanfattning av regressionen. Förklaringsgraden hos modellen är 0.891, vilket är någorlunda sämre än försök 1 och 2 men fortfarande högt. Den skattade standardavvikelsen för residualerna blev 13.02%. Notera även att koefficienten är väldigt liten för månadsavgift. Detta implicerar att den har mycket liten procentuell inverkan på responsvariabeln och därmed saknar praktisk signifikans. En lösning till detta är att ha månadsavgift i enheten kkr och låta en ökning med 1 enhet motsvara 1000 kr. Därmed skulle slutpriset till exempel minska med ungefär 1.8% för varje 1000 kronors ökning 18

i månadsavgift. Beroende variabel: log(pris) Standardiserade Residualer 6 4 2 0 2 4 2 1 0 1 2 3 4 5 Standardiserade Skattade Värden Figur 5: Standardiserad residualplott för försök 3 I figur 5 är majoriteten av datapunkterna jämnt fördelade kring 0. Notera att datapunkterna längst till höger liknar en svans vilket indikerar heteroskedasticitet. Men eftersom svansen endast utgör av ett fåtal punkter är det rimligt att förmoda homoskedasticitet. För att se om residualerna är normalfördelade används P-P plott. 19

P P Plott av Standardiserade Residualer Beroende variabel: log(pris) Förväntad Kumulativ Fördelning 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Observerad Kumulativ Fördelning Figur 6: P-P plot för försök 3 Här noteras en förbättring jämfört med föregående försök. Datapunkterna är mycket mer anpassad till den räta linjen och därför antas normalfördelning hos residualerna. 5.4 Försök 4 I ett försök att förbättra regressionsmodellen logaritmerades variablerna månadsavgift och storlek. Den fjärde regressionsmodellen ges av: ln(pris) = β 0 + β 1 ln(storlek) + β 2 ln(månadsavgift) + + β 3 Våning + β 4 Byggnadsår + β l Stadsdel + ɛ (32) Tabell 6 sammanfattar regressionsförsöket 4. Koefficienterna till kovariaterna tolkas procentuellt när storlek eller månadsavgift ökas med 1% medan alla andra hålls konstanta. Förklaringsgraden har förbättrats från 0.891 till 0.9231. Den skattade standardavvikelsen för residualerna blev 10.94%. Återigen är kvartal och vissa stadsdelar insignifikanta. De resterande kovariaterna visar statistiskt signifikans och t-värdena uppfyller ekvationen (11). 20

Modell 4 (Intercept) 14.48 (0.17) t=83.52 log(storlek) 0.89 (0.01) t=106.03 log(månadsavgift) 0.07 (0.01) t= 8.23 Våning 0.01 (0.0014) t=9.79 Byggnadsår 0.0014 (0.000091) t= 15.60 Hjorthagen 0.11 (0.02) t= 4.61 Kungsholmen 0.10 (0.02) t=5.90 Ladugårdsgärdet 0.08 (0.02) t=4.42 Norrmalm 0.14 (0.02) t=7.18 Reimersholme 0.13 (0.04) t=3.05 Stadshagen 0.10 (0.02) t=4.40 Stora Essingen 0.07 (0.03) t= 2.48 Södermalm 0.06 (0.02) t=3.85 Vasastaden 0.12 (0.02) t=7.55 Östermalm 0.18 (0.02) t=9.92 R 2 0.9237 R 2 adj 0.9231 Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 6: Sammanfattning för regression; försök 4 Nedan i figur 7 presenteras en residualplott. Datapunkterna är slumpmässigt fördelade kring 0 vilket förmodar homoskedasticitet. Beroende variabel: log(pris) Standardiserade Residualer 4 2 0 2 4 3 2 1 0 1 2 3 Standardiserade Skattade Värden Figur 7: Standardiserad residualplott för försök 4 Nedan i figur 8 framgår att datapunkterna följer den räta linjen mycket väl, 21

vilket tolkas som att residualerna är normalfördelade. P P Plott av Standardiserade Residualer Beroende variabel: log(pris) Förväntad Kumulativ Fördelning 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Observerad Kumulativ Fördelning Figur 8: P-P plot för försök 4 5.5 Försök 5 För den sista modellen läggs variabeln antal rum tillbaka i regressionsmodellen. Regressionsekvationen ges av följande: ln(pris) = β 0 + β 1 ln(storlek) + β 2 ln(månadsavgift) + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + ɛ (33) I tabell 7 visas att förklaringsgraden höjts för modellen, vilket är bra. Den skattade standardavvikelsen för residualerna har också minskat till 10.39%. Återigen ses att kvartal är insignifikant. Alla andra kovariater från försök 4 behåller sin statistiska signifikans och uppfyller ekvationen (11). 22

Modell 5 (Intercept) 15.40 (0.17) t=89.53 log(storlek) 0.74 (0.01) t=63.47 log(månadsavgift) 0.08 (0.01) t= 10.35 Våning 0.01 (0.0013) t=10.35 Byggnadsår 0.0016 (0.000087) t= 18.96 Antal rum 0.08 (0.0049) t=17.03 Hjorthagen 0.11 (0.02) t= 4.89 Kungsholmen 0.11 (0.02) t=6.90 Ladugårdsgärdet 0.09 (0.02) t=5.18 Norrmalm 0.16 (0.02) t=8.39 Reimersholme 0.13 (0.04) t=3.33 Stadshagen 0.11 (0.02) t=5.17 Stora Essingen 0.08 (0.03) t= 2.76 Södermalm 0.08 (0.02) t=5.14 Vasastaden 0.14 (0.02) t=9.08 Östermalm 0.19 (0.02) t=10.86 R 2 0.9312 R 2 adj 0.9307 Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 7: Sammanfattning för regression; försök 5 I figurerna 9 och 10 kan man avläsa att det råder homoskedasticitet och normalitet hos residualerna. Beroende variabel: log(pris) Standardiserade Residualer 2 0 2 4 3 2 1 0 1 2 3 Standardiserade Skattade Värden Figur 9: Standardiserad residualplott för försök 5 23

P P Plott av Standardiserade Residualer Beroende variabel: log(pris) Förväntad Kumulativ Fördelning 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Observerad Kumulativ Fördelning Figur 10: P-P plot för försök 5 Tabell 8 visar att det råder multikolinjäritet hos modellen. x i : log(storlek) log(månadsavgift) Våning Byggnadsår Antal rum Stadsdel VIF: 5.964 2.822 1.160 1.506 4.797 1.665 Tabell 8: VIF värden till kovariaterna i försök 5 24

6 Diskussion I följande sektioner diskuteras och analyseras resultaten från sektion 5. 6.1 Analys av Försök 1 Regressionsmodellen för försök 1 ges av ekvationen (29). Modellen har ett högt R 2 adj vilket är väldigt bra. Alla kovariater förutom kvartal och enstaka stadsdelar är också statistiskt signifikanta och uppfyller ekvation (11). Dock innehåller modellen multikolinjäritet där storlek och antal rum är starkt positivt korrelerade. Detta presenteras i figur 11 i Appendix. Residualplotten i figur 1 visar heteroskedasticitiskt beteende, vilket skapar felskattade koefficienter. Residualerna är inte heller normalfördelade. Orsaken till beteendet kan vara att spridningen av bostadsrättspriserna sträcker sig från hundratusentals kronor till ett flertal miljoner kronor. Eftersom modellen betraktar det faktiska slutpriset kommer residualernas inverkan på slutpriset vara mycket stor för en bostadsrätt med lågt slutpris och knappt något alls för en bostadsrätt med ett högre slutpris. Eftersom egenskaperna hos modell 1 strider emot Gauss-Markov s antaganden så är regressionen inte tillförlitlig, och därmed förkastas modellen. 6.2 Analys av Försök 2 Borttagningen av variabeln antal rum i försök 2 minskade multikolinjäriteten till en accepterad nivå. Däremot var heteroskedasticitet och residualens fördelning fortfarande problematiska som i försök 1. Därför förkastas modellen och ingen vidare analys görs. 6.3 Analys av Försök 3 I försök 3 logaritmerades responsvariabeln pris. Här tolkas en ökning med 1 enhet hos någon av kovariaterna en ökning med 100 β% för responsvariabeln när alla andra kovariaterna hålls konstanta. Som det har nämnts i sektion 5.3 är koefficienten för månadsavgift praktiskt insignifikant. Alternativet är att ange månadsavgift i enheten kkr och låta en ökning med 1 enhet motsvara 1000 kr. Därmed skulle slutpriset minska med ungefär 1.8% för varje 1000 kronors ökning i månadsavgift. Notera att om månadsavgift skulle haft en större procentuell inverkan på slutpriset än alla andra kovariater så skulle denna kovariat sänka slutpriset med väldigt mycket för en dyrare lägenhet. Detta skulle innebära att modellen inte skulle vara lämplig för att betrakta prisförändringar för bostadsrätter vars slutpris är avsevärt utanför prisintervallet för datamängden. Logaritmeringen minskade förklaringsgraden hos modellen till 0.8917, vilket är någorlunda sämre än försök 1 och 2 men fortfarande högt. Minskningen beror dels på uteslutandet av variabeln antal rum. Återigen är kovariaten kvartal insignifikant. Samma sak gäller för ett antal stadsdelar. Resterande kovariater i försök 3 visar statistisk signifikans och uppfyller ekvationen (11). Alla tecken till koefficienterna är också i enighet med hypotesen. Problemet ligger i att residualerna för modellen tenderar att vara heteroskedasticitetiskt. Det är svårt att 25

avgöra om modellen är fri från heteroskedasticitet på grund av svansen längst till höger i figuren 5. 6.4 Analys av Försök 4 För att konstruera en mer tillförlitlig modell logaritmerads variablerna månadsavgift och storlek. Modellen visade en förbättring av förklaringsgraden. Orsaken till detta är förmodligen att en procentuell ökning i de logaritmerade kovariaterna ger ett mer signifikant utslag hos responsvariabeln för att residualernas inverkan på slutpriset är mer balanserat. All kovariater i modellen behöll sin signifikans och visades också uppfylla Gauss-Markov antagandena. 6.4.1 Tillförlitlighet För att undersöka modellens tillförlitlighet gjordes ett tvåsidigt t-test för att kontrollera att samtliga kovariater i modellen var statistiskt signifikanta. t- värdena som hittas i tabell 6 uppfyller ekvation (11), där t c = 1.97. Detta betyder att nollhypotesen kan förkastas och att samtliga koefficienter är skilda från noll på en 5% signifikansnivå. I tabell 6 visas att månadsavgift och byggnadsår har en negativ inverkan på slutpriset. Tecknet för koefficienten till månadsavgiftens inverkan på slutpriset överensstämmer med hypotesen. En ökning av byggnadsår med 1 år ger en minskning av slutpriset med ungefär 0.14%. Detta kan tänkas vara rimligt eftersom de äldre bostadsrätterna i innerstad förmodas vara mer attraktiva än nybyggnationer. Här skulle det vara mer praktiskt signifikant att kolla på en ökning med 10 år. En ökning med 10% på månadsavgiften ger en minskning av slutpriset med ungefär 0.67%. Detta ses som rimligt då en dyrare kontinuerlig månadsutgift bör påverka köparens vilja till att betala mindre för en bostadsrätt. Båda stadsdelarna Hjorthagen och Stora Essingen bidrar också med en negativ inverkan till slutpriset. Detta kan bero på att både stadsdelarna ligger relativt långt ifrån Stockholms stadskärna jämfört med de andra stadsdelarna. En annan orsak kan också vara att tunnelbanan saknas eller svåråtkomlig i dessa två stadsdelar, vilket betyder att transporten till och från stadsdelarna försvåras. Resterande kovariater har en positiv inverkan på slutpriset. Både storlek och våning har samma tecken som hypotesen. I tabell 11 i Appendix ses att storlek har störst inverkan på slutpriset. Att storleken är den viktigaste faktorn för slutpriset anses vara rimligt. En ökning med 10% av boarean innebär en ökning med ungefär 8.9% av slutpriset. Att en bostadsrätt på ett högre våningsplan kostar mer är rimligt då ett högre våningsplan innebär oftast mindre insyn och bättre utsikt och ljussättning. Östermalm tenderar också att vara stadsdelen som har mest positiv inverkan på slutpriset. Detta ses som rimligt med tanke på att Östermalm ligger väldigt nära Stockholms stadskärna och är känt som Stockholms rikemansområde. En förklaring till varför vissa av stadsdelarna inte var signifikanta för modellen är att endast fåtal datapunkter fanns att tillgå för dessa bostadsrätter. 26

6.5 Analys av Försök 5 I försök 5 återinfördes antal rum i modellen. Förklaringsgraden höjdes till 93.34%. Eftersom minstakvadrat estimatorn fortfarande är unbiased med multikolinjäritet i modellen, så länge som modellen uppfyller Gauss-Markov antagandena, så är skattningarna av våra koefficienter fortfarande tillförlitliga. Konsekvenserna av multikolinjäritet som nämns i sektion 2.5.1 är väldigt liten på grund av datamängdens storlek. Därför ansågs att signifikansen som kovariaten antal rum tillförde till modellen mer övervägande än multikolinjäriteten. Det är dock värt att nämna att vid multikolinjäritet blir koefficienternas varians större och känsligare. Därmed kan tolkningen av koefficienterna ibland försvåras. Om man jämför modell 4 och modell 5 i vår analys så har vi inte dessa problem. I vårt fall får alltså göra en avvägning mellan om man vill ha en modell med multikolinjäritet med en högre förklaringsgrad eller en modell utan multikolinjäritet med en lägre förklaringsgrad. 6.5.1 Tillförlitlighet Ett tvåsidigt t-test utfördes för att kontrollera att samtliga kovariater var signifikanta. Notera att t-värdet för storlek minskade, vilket var förväntat enligt teorin. Trots multikolinjäritet uppfyller alla t-värdena ekvationen (11). Standardfelen som anges i tabell 7 gav heller ingen signifikant ökning med multikolinjäriteten i modellen. Därmed antas att tillförlitligheten är hög för modellen. Notera också att förklaringsgraden är högre i denna modell vilket betyder att modellen förklarar slutpriset bättre. Dock måste vi ta hänsyn till att endast 8 lägenheter ha sålts i stadsdelen Reimersholme vilket är väldigt få, som en konsekvens är dess standardfel högre än alla andra stadsdelar. Kovariaternas tecken i denna modell följer modell 4. Dessutom är koefficienternas storlek i princip likadana för båda modellerna. Signifikansen för samtliga kovariater är också liknande här som i modell 4. Därmed kan samma resonemang föras här som för modell 4. Modell 5 anses vara den bästa modellen för att förklara slutpriset. Beslutet baseras på att modellen uppfyller Gauss-Markov antagandena och den har störst förklaringsgrad och minsta skattade standardavvikelse för residualerna. Dessutom utelämnas inga av de viktigaste kovariaterna i modellen och att koefficienter till dessa har rimliga tecken. Vi anser att en bättre förklaringsgrad överväger existensen av multikolinjäriteten i modellen. Denna modell anses att kunna prediktera slutpriset i framtiden under förutsättningen att amorteringskrav och bolåneräntan inte förändras, eftersom dessa faktorer har en stor inverkan på bland annat efterfrågan och därmed slutpriset. Modellen är också lämpad för att betrakta procentuella prisförändringar hos slutpriset. Dock är det värt att nämna att modellen är begränsad i att endast kunna prediktera och betrakta procentuella förändringar av slutpriset för en bostadsrätt för stadsdelarna som finns med i tabell 7. Anledningen till att de övriga insignifikanta stadsdelarna var att endast få datapunkter erhölls. En bredare modell hade varit att öka antalet datapunkter i de utelämnade stadsdelarna. 27

6.6 Vidare studier Trots en hög förklaringsgrad hos modell 5, finns det fortfarande ungefär 7% som modellen inte kan förklara slutpriset. För att få en bättre modell skulle en utvidgning av modellen kunna göras genom att ta med faktorer som amorteringskrav, bolåneräntan, utbud och efterfrågan och tillgängligheten av hiss och balkong. Ett tungt amorteringskrav innebär en stor betalningsbelastning på köparen, vilket kan leda till att personen inte kommer vara lika villig att betala en högre summa för en bostadsrätt. En lägre bolåneränta sänker köparens kontinuerliga kostnader och på så sätt ha en större vinstmarginal om köparen till exempel skulle hyra ut sin bostadsrätt. Detta kan ses som ett incitament till att betala mer för en bostadsrätt. Faktorer som hiss och balkong är troligtvis mer betydelsefull för bostadsrätter som ligger på ett högre våningsplan. 28

7 Slutsats Modellerna till försök 1,2 och 3 tenderar att ha heteroskedasticitet. Detta strider emot de nödvändiga antaganden som en multipel linjär regression kräver. På grund av detta förkastades dessa modeller. Modellerna till försök 4 och 5 uppfyller Gauss-Markov antagandena och därmed anses vara tillförlitliga för att kunna prediktera och betrakta procentuella förändringar hos bostadsrättspriset i Stockholms innerstad. Slutpriset på en bostadsrätt påverkades inte av när på året bostadsrätten såldes för samtliga modeller. Av dessa 2 modeller utsågs modell 5 till den bästa framtagna modellen. Däremot kunde modellen inte prediktera eller betrakta de procentuella förändringarna i slutpriset på bostadsrätter i alla de ursprungliga stadsdelarna som fanns med. Detta är dels på grund av att få bostadsrätter hade sålts från de uteslutna stadsdelarna, vilket bidrog till deras insignifikans i modellen. Vissa stadsdelar som visades vara signifikanta för modellen hade få datapunkter. Därmed kan skattningen av dessa koefficienter ha eventuella fel, vilket man måste ta hänsyn till. Som det nämndes i sektion 6.6 har faktorer som utbud och efterfrågan, amorteringskravet och bolåneräntan också stor inverkan slutpriset på en bostadsrätt. Dessa faktorer uppmuntras att tas med i vidareforskningen i ämnet för att få en bättre modell. Men givet tidsramen för detta arbete så är modell 5 en hyfsad modell för att betrakta de procentuella förändringarna för bostadsrättspriset i Stockholms innerstad och en bra prediktionsmodell under förutsättningen att bolåneräntan och amorteringskraven inte ändras. 29

Referenser [1] Andersson K. Nya prisrekord på stekhet bomarknad. Svenska dagbladet [Internet]. 2015 apr 16. Tillgänglig på: http://www.svd.se/naringsliv/ pengar/bostad/nya-prisrekord-pa-stekhet-bomarknad_4488819.svd [2] Economist Intelligence Unit. Best cities ranking and report [Internet]. 2012. Tillgänglig på: http://pages.eiu.com/rs/eiu2/images/eiu_ BestCities.pdf [3] Hedlund M, Andersson F. Bankerna inför nollränta. Dagens Nyheter [Internet]. 2014 jul 09. Tillgänglig på: http://www.dn.se/ekonomi/ bankerna-infor-nollranta/ [4] Kleinbaum, David G, Applied Regression Analysis and Other Multivariable Methods. 4th ed. Druid Hills, GA: Brooks/Cole Cengage Learning; 2008 [5] Lang Harald, Elements of Regression Analysis. Stockholm; 2004. [6] Studenmund A.H, Using Econometrics: A Practical Guide. 5th ed. Boston: Pearson and Addison-Wesley; 2006. [7] Wooldridge M. Jeffrey, Introductory Econometrics: A Modern Approach. 5th ed. CENGAGE Learning; 2012. 30