Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Relevanta dokument
Regressionsanalys av lägenhetspriser i Spånga

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Analys av bostadsrättspriset i Stockholms innerstad

Regressions- och Tidsserieanalys - F4

Regressionsanalys av huspriser i Vaxholm

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

NÄR SKA MAN SÄLJA SIN BOSTAD?

En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 12: Regression

Matematisk statistik, Föreläsning 5

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys

Metod och teori. Statistik för naturvetare Umeå universitet

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning 4. Kap 5,1-5,3

Regressionsanalys av bostäder i Ekerö kommun

Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader

F13 Regression och problemlösning

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Regressions- och Tidsserieanalys - F1

7.5 Experiment with a single factor having more than two levels

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Regressions- och Tidsserieanalys - F1

MVE051/MSG Föreläsning 14

Kapitel 10 Hypotesprövning

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Grundläggande matematisk statistik

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

TVM-Matematik Adam Jonsson

Multipel Regressionsmodellen

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

10.1 Enkel linjär regression

F11. Kvantitativa prognostekniker

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Matematisk statistik för B, K, N, BME och Kemister

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Sänkningen av parasitnivåerna i blodet

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Finansiell statistik. Multipel regression. 4 maj 2011

Matematisk statistik för D, I, Π och Fysiker

Repetitionsföreläsning

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Linjär regressionsanalys. Wieland Wermke

Bayesiansk statistik, 732g43, 7.5 hp

Inflyttning i Stockholmsområdet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Tentamen i Matematisk statistik Kurskod S0001M

Korrelation och autokorrelation

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Experimentella metoder, FK3001. Datorövning: Finn ett samband

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TAMS65 - Seminarium 4 Regressionsanalys

Laboration 4 R-versionen

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen för kursen. Linjära statistiska modeller. 17 februari

, s a. , s b. personer från Alingsås och n b

TAMS65 DATORÖVNING 2

Laboration 2 multipel linjär regression

Statistik 1 för biologer, logopeder och psykologer

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Skrivning i ekonometri lördagen den 29 mars 2008

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

import totalt, mkr index 85,23 100,00 107,36 103,76

Tentamen i matematisk statistik

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

tentaplugg.nu av studenter för studenter

Statistiska metoder för säkerhetsanalys

Transkript:

Kungliga Tekniska Högskolan Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Författare: Lovisa Jangenstål Susanna Kaas Handledare: Gunnar Englund May 15, 2013

Förord Denna rapport är en kandidatexamensuppsats i Teknisk Fysik på Kungliga Tekniska Högskolan. Arbetet genomfördes på Institutionen för Matematisk Statistik och omfattar 15 högskolepoäng. Vi vill rikta vår tacksamhet till vår handledare, Universitetslektor Gunnar Englund, för hans mycket värdefulla rådgivning och vägledning. Vi vill även tacka Matti Svantesson, IT-chef på Fastighetsbyrån, som gjort vårt arbete möjligt. 2 15 maj 2013

Sammanfattning I denna rapport används multipel linjär regressionsanalys för att analysera hur ett antal variabler påverkar bostadsrättspriser i stor-stockholm. Modeller framställs för Innerstaden, Västerort och Söderort separat. Dessa modeller var baserade på data som hämtats från Fastighetsbyrån och kompletteras med avstånd hämtade från Google Maps. Datamaterialet består av försäljningar av bostadsrätter i november år 2011 och 2012. För varje enskild variabel testas validiteten och variablernas inverkan på slutpriset diskuteras. Det konstrueras dels regressionsmodeller som är additiva och även sådana som betraktar procentuella förändringar. Resultatet blev tre modeller med förklaringsgrader på 50-90% för respektive modell. Modellerna som bäst beskriver slutpriset i respektive delområde betraktar endast procentuella förändringar då de additiva modellerna inte gav resultat som uppfyller antagandena för multipel regressionsanalys. Den modell med högst förklaringsgrad och minst residualer var den för Innerstaden då detta område är det mest homogena av de tre delområdena. May 15, 2013 3

Abstract In this report multiple linear regression was used to analyse how a number of variables affects the final prices of apartments in Stockholm. Different regression models were constructed for three subregions of Stockholm. These models were based on data material collected from Fastighetsbyrån and complemented by distances from Google Maps. The data material consists of apartments sold in November 2011 and 2012. The validity is tested for every single variable and the affect on the final price is discussed. Some regression models were linear and other models were exponential models that only consider percentage changes. The result was three models with the coefficient of determination between 50 % and 90 % for respective model. The best models to describe the final price in the three different parts of Stockholm is the models that considers the percentage changes. The regression model with the highest coefficient of determination is the one for Stockholm city because this region is the most homogeneous of the three ones. 4 15 maj 2013

Innehåll 1 Inledning 8 2 Bakgrund 8 2.1 Syfte................................ 8 3 Metod 8 3.1 Multipel linjär regressionsanalys................ 8 3.1.1 Standardiserade koefficienter.............. 10 3.1.2 t-test........................... 10 3.1.3 Förklaringsgrad...................... 11 3.1.4 AIC och BIC....................... 11 3.1.5 Multikolinjäritet..................... 11 3.1.6 VIF............................ 12 3.1.7 Heteroskedasticitet.................... 12 3.1.8 p-värde.......................... 13 3.2 Modellval............................. 13 3.3 Variabelselektion......................... 13 3.3.1 Forward selection..................... 13 3.3.2 Backward elimination.................. 14 3.3.3 Stegvis regression..................... 14 3.4 Transformering av variabler................... 14 3.4.1 PP-diagram........................ 15 3.4.2 Kvalitativa och kvantitativa variabler.......... 16 4 Variabler 16 15 maj 2013 5

4.1 Beskrivning av datamaterialet.................. 17 4.2 Avgränsning............................ 17 4.3 Hypotes.............................. 18 5 Genomförande 19 6 Resultat 21 6.1 Söderort.............................. 21 6.1.1 Försök 1 - stegvis regression............... 21 6.1.2 Försök 2 - logaritmerad responsvariabel........ 23 6.2 Västerort............................. 25 6.2.1 Försök 1 - stegvis regression............... 25 6.2.2 Försök 2 - regression................... 25 6.2.3 Försök 3 - logaritmerad responsvariabel........ 28 6.3 Innerstaden............................ 30 6.3.1 Försök 1 - stegvis regression............... 30 6.3.2 Försök 2 - regression med extraterm.......... 32 6.3.3 Försök 3 - regression med extraterm.......... 32 6.3.4 Försök 4 - logaritmerad responsvariabel........ 33 7 Diskussion 35 7.1 Analys av modellerna...................... 35 7.1.1 Söderort.......................... 35 7.1.2 Västerort......................... 37 7.1.3 Innerstaden........................ 39 7.1.4 Utvärdering av resultaten................ 41 6 15 maj 2013

8 Slutsats 43 9 Appendix 45 15 maj 2013 7

1 Inledning Priset på en bostadsrätt kan bero på många olika faktorer. Några av dessa är boarea, avgift, närhet till stadskärna, pendlingstid och antal rum. Målet med denna rapport är att med multipel linjär regressionsanalys undersöka hur mycket dessa faktorer påverkar slutpriset hos bostadsrätter. Är det möjligt att modellera slutpriset på en bostadsrätt med dessa faktorer som variabler? 2 Bakgrund Bostadsrättspriser är ständigt ett aktuellt ämne. Varje vecka publiceras de senaste rönen angående läget på bostadsmarknaden och varje söndag kommer Dagens Nyheters bostadsdel i brevlådan. Priset på en bostadsrätt har under de senaste åren skjutit i höjden, inte minst i Stockholmsområdet. Vid köp av en bostadsrätt är det intressant att känna till hur olika egenskaper påverkar dess pris och detta skall undersökas i denna rapport. 2.1 Syfte Syftet med detta arbete är att med statistiska modeller undersöka hur ett antal faktorer påverkar slutpriset på en bostadsrätt. 3 Metod 3.1 Multipel linjär regressionsanalys Om en responsvariabel, y, beror på flera förklarande variabler x 1,..., x n används multipel linjär regressionsanalys. Responsvariabeln kan approximeras med modellen y i = β 0 + β 1 x 1i + β 2 x 2i +... + β n x ni + ɛ i, i = 1, 2,..., k (1) där y i är den i:te observationen av responsvariabeln y. Den observerade responsvariabelns väntevärde beror på variablerna x 1i,..., x ni som är de i:te observationerna av de förklarande variablerna x 1,..., x n. Koefficienterna till modellen betecknas β 0,..., β n. Den första koefficienten β 0 kallas interceptet 8 15 maj 2013

och representerar den konstanta termen i modellen. Feltermen i modellen ovan betecknas ɛ i och är skillnaden mellan det observerade och det förväntade y-värdet för en observation. Felen bör vara sinsemellan oberoende vid varje observation och även normalfördelade N(0, σ 2 ). [1] I matrisnotation kan sambandet ovan skrivas: Y = Xβ + ɛ (2) där y 1 1 x 11 x n1 β 0 ɛ 1 y 2 Y =., X = 1 x 12 x n2....., β = β 1.., ɛ = ɛ 2. (3) 1 x 1k x nk β n ɛ k y k För att bestämma ˆβ, de skattade värdena på koefficienterna β, används minstakvadratmetoden: ˆβ = S 1 X T Y (4) där S = X T X Därmed fås modellen för det skattade y i : ŷ i = ˆβ 0 + ˆβ 1 x 1i + ˆβ 2 x 2i + + ˆ β n x ni (5) Viktigt är att skilja på felterm och residual. Feltermen betraktas endast i teorin, medan residualen definieras som skillnaden mellan det verkliga värdet på y i och det skattade värdet ŷ i : [2] e i = y i ŷ i (6) Residualen kan betraktas som en skattning av feltermen och därför ges felen i modellerna senare i rapporten som residualer. Då medelvärdet av residualerna skall vara noll betraktas residualernas skattade standardavvikelse för att finna de skattade felen i modellerna. [3] 15 maj 2013 9

3.1.1 Standardiserade koefficienter Vid multipel regressionsanalys är det relevant att undersöka hur betydelsefulla de enskilda förklarande variablerna är för modellen. En metod är att betrakta de standardiserade regressionskoefficienterna. Före regressionen standardiseras samtliga variabler, även responsvariabeln, genom att subtrahera variabelns medelvärde och dividera med dess standardavvikelse. De standardiserade regressionskoefficienterna representerar då förändringen som resulterar ur ändringen av en standardavvikelse i en förklarande variabel. Standardiserade koefficienter är enhetsoberoende och kan därför direkt jämföras med varandra utan att ta hänsyn till enheter. [5] 3.1.2 t-test Hypotestester används för att kontrollera om de beräknade β-koefficienterna är riktiga för den framtagna modellen. Ett t-test är en form av hypotestest som testar hypoteser för en regressionskoefficient i taget. Ett tvåsidigt t-test undersöker om någon β-koefficient egentligen bör vara noll, vilket innebär att den motsvarande förklarande variabeln inte bör ingå i modellen. Värdet som inte förväntas är det som väljs som nollhypotes H 0, medan det förväntade värdet sätts som mothypotes H A. Matematiskt ser hypotesen ut på följande sätt: H 0 : β = 0 H A : β 0 (7) För att beräkna t-värdena för en modell måste feltermerna i regressionsanalysen vara normalfördelade. För varje skattad koefficient ˆβ j i ekvation (5) beräknas därför motsvarande t-värde enligt: t j = ˆβ j SE( ˆβ j ) j = 1, 2.., n (8) Här är ˆβ j den minstakvadratskattade regressionskoefficienten för den j:te förklarande variabeln x j. Den skattade standardavvikelsen för ˆβ j betecknas SE( ˆβ j ). Förutsättningarna för att nollhypotesen skall förkastas eller inte beror på det kritiska t-värdet t c, som i sin tur beror på antalet frihetsgrader för modellen. Antal frihetsgrader ges av k n, där k är antalet observationer och n är 10 15 maj 2013

antalet skattade koefficienter, interceptet inte inkluderat. Regeln är sådan att nollhypotesen H 0 förkastas då t j > t c. [3] 3.1.3 Förklaringsgrad Förklaringsgraden betecknas R 2 och är ett mått på till hur stor del de förklarande variablerna i en modell förklarar variansen i responsvariabeln. Förklaringsgraden för en modell definieras som: R 2 = Kvadratsumma regression Kvadratsumma totalt = 1 Kvadratsumma residual Kvadratsumma totalt (9) Målet är att modellen skall få en så hög förklaringsgrad som möjligt, vilket innebär att residualerna minimeras. Mindre residualer leder till ett bättre skattat värde på responsvariabeln. Förklaringsgraden ökar ju fler variabler som inkluderas i modellen. [2] 3.1.4 AIC och BIC Ett alternativ till att använda förklaringsgraden för att bestämma vilka variabler som skall ingå i en modell är att använda Akaike s Information Criterion (AIC) och Bayesian Information Criterion (BIC). Ekvationerna till dessa modeller är: AIC = ln( Kvadratsumma residual 2(n + 1) ) + k k BIC = ln( Kvadratsumma residual ) + ln(k) n + 1 k k (10) där k är antalet observationer och n är antalet förklarande variabler. Vid jämförelse mellan två modeller beräknas AIC och BIC för vardera modell. Målet är att AIC och BIC skall minimeras. Båda dessa kriterier tenderar till att straffa en adderad förklarande variabel mer än förklaringsgraden gör. [3] 3.1.5 Multikolinjäritet Allvarlig multikolinjäritet uppstår då förändringen av en förklarande variabel helt förklaras av ändringar i en annan av modellens förklarande variabler. 15 maj 2013 11

Fenomenet kan upptäckas genom att grafiskt studera om ett linjärt samband existerar mellan de förklarande variablerna. En allvarlig multikolinjäritet gör att det inte går att skatta β- koefficienter då två eller fler variablers inverkan inte kan skiljas från varandra och bör därför undvikas i en regressionsmodell. Fenomenet kan också uppstå i form av att en förklarande variabel dominerar över resterade förklarande variabler. Den dominerande variabeln är då kopplad till responsvariabeln på sådant sätt att de resterade förklarande variablernas inverkan inte kommer att synas. [3] 3.1.6 VIF Variance Inflation Factor (VIF) är ett mått som används för att kontrollerna om en variabel bidrar till multikolinjäritet i en modell. Värdet är ett index på hur mycket multikolinjäriteten har ökat variansen hos en av de skattade β-koefficienterna. Måttet beräknas genom att för varje förklarande variabel betrakta denna som en regressionsmodell av de övriga förklarande variablerna från den ursprungliga modellen. Genom att utföra en regressionsanalys för denna nya modell kan förklaringsgraden Rj 2 för den valda förklarande variabeln bestämmas. VIF definieras som: V IF ( ˆβ j ) = 1 1 R 2 j (11) Ett högt VIF indikerar att multikolinjäriteten i modellen har ökat den skattade variansen för de skattade koefficienterna relativt mycket. Detta resulterar i en minskning av t-värdet. Ett lägre t-värde medför en risk att variabeln inte blir signifikant för modellen. Ett VIF>5 innebär att det råder allvarlig multikolinjäritet. [3] 3.1.7 Heteroskedasticitet Minstakvadratmetoden förutsätter att feltermerna ɛ i har konstant standardavvikelse, vilket innebär att homoskedasticitet råder. Om detta inte gäller kommer felaktiga skattningar på koefficienternas standardfel att genereras. Det innebär att signifikanstesterna på koefficienterna inte blir korrekta och variabler kan då felaktigt inkluderas eller exkluderas ur en modell. Detta fenomen kallas heteroskedasticitet. [3] 12 15 maj 2013

3.1.8 p-värde Ett p-värde anger sannolikheten att vid nästa observation få ett minst lika extremt värde som det tidigare observerade värdet. Då p-värdet ligger under en viss nivå sägs resultatet vara statistiskt signifikant. Denna nivå är vanligtvis 0.05. I senare delar av rapporten benämns statistiskt signifikant endast som signifikant. [2] 3.2 Modellval Det är inte självklart att alla tillgängliga förklarande variabler tillsammans förklarar modellen på ett optimalt sätt. Vad som är en optimal metod är inte uppenbart och det finns flera metoder som ger en indikation på hur väl modellen förklarar responsvariabeln samt hur mycket fel modellen ger. Det är viktigt att inte utesluta någon förklarande variabel som inverkar på responsvariabeln. Om det utesluts för många parametrar fås en sämre modell och eventuellt sämre prediktioner och parameterskattningar. Det är minst lika viktigt att inte ha för många förklarande variabler eftersom detta leder till ett större beräkningsarbete. Överflödiga variabler ger osäkrare skattningar och det kan bli mer komplicerat att tolka modellen. [2] 3.3 Variabelselektion Det finns flera modeller som bygger på att eliminera icke-signifikanta variabler i en modell. Dessa metoder kan användas för att kontrollera vilka förklarande variabler som bör ingå i en modell. Denna typ av metoder presenteras nedan. 3.3.1 Forward selection Forward selection utgår från en modell helt utan förklarande x-variabler, dvs y = β 0. Med en variabel i taget utvidgas modellen. I varje del av processen väljs den variabel som vid inkludering i modellen är mest signifikant i testet om motsvarande parameter β j = 0. Processen fortsätter så länge det finns någon variabel som är signifikant på en förut bestämd nivå att inkludera i modellen. [2] 15 maj 2013 13

3.3.2 Backward elimination Metoden utgår i från en modell där alla förklarande variablerna är inkluderade. I varje steg av processen utesluts en variabel tills något förutbestämt villkor är uppfyllt. Processens gång är att i varje steg testa hypotesen β j = 0 för alla kvarvarande förklarande variabler x j. Proceduren stoppas om alla kvarvarande β j är signifikant skilda från noll på en förutbestämd risknivå. [2] 3.3.3 Stegvis regression Stegvis regression är en mer avancerad version av modellval och en kombination av forward selection och backward elimination. I varje steg kontrolleras att de tidigare inkluderade variablerna i modellen ger signifikanta utslag i testet om motsvarande parameter β j = 0. Eventuella variabler som inte längre ger signifikanta utslag elimineras ur modellen. Denna modell utreder om en gammal variabel är överflödig när en ny variabel kommit in i modellen. [2] 3.4 Transformering av variabler Minstakvadratmetoden kräver inte att variablerna är linjära. Dock gäller kravet för β-koefficienterna i regressionsmodellen. Detta ger möjligheten att transformera variablerna till en annan form då det är nödvändigt. Det finns många orsaker till val av en variabels form, det kan exempelvis vara att datamaterialet har en sådan tendens. Om data är sådan att det finns ett exponentiellt beroende mellan de förklarande variablerna och responsvariabeln skall både högerledet och vänsterledet i den linjära formen, se ekvation (1), logaritmeras: ln(y) = β 0 + β 1 ln(x 1 ) + β 2 ln(x 2 ) +... + β n ln(x n ) + ɛ (12) Denna funktionsform betraktas så att en ökning av en förklarande variabeln med 1%, samtidigt som de övriga förklarande variablerna hålls konstanta, motsvaras av en ökning av responsvariabeln med β j % Funktionen kan också väljas sådan att endast vänsterledet logaritmeras. Detta kan vara lämpligt i situationer då en ökning av en förklarande variabel medför en förändring av responsvariabeln med ökad takt. Denna funktionsform ser ut på följande sätt: 14 15 maj 2013

ln(y) = β 0 + β 1 x 1 +... + β n x n + ɛ (13) För denna modell är inte β-koefficienterna konstanta. Här innebär en ökning av en förklarande variabel med 1 enhet, samtidigt som de övriga förklarande variablerna hålls konstanta, en procentuell ökning av responsvariabeln. Detta innebär att responsvariabeln ökar β 100 procent vid en ökning av en förklarande variabel med 1 enhet. Det finns också fall då regressionsmodellen behöver vara i polynomisk form, vilket innebär att en eller flera förklarande variabler är i potenser av gradtal skilda från ett. Denna modell är lämplig då en förklarande variabels inverkan på responsvariabeln har en annan tendens än den linjära. [3] 3.4.1 PP-diagram Ett PP-diagram är en förkortning av engelskans probability-probability plot. Diagrammet används för att bestämma om en given datamängd följer någon specifik fördelning genom att plotta två kumulativa fördelningsfunktioner mot varandra. För en variabel X kan sannolikhetsfördelningen unikt beskrivas med sin kumulativa fördelningsfunktion F (x). Denna beskrivs som: [6] F (x) = P (X x) = x P (ξ)dξ (14) Grafen skall vara ungefär linjär om den specifika fördelningen är den korrekta för modellen. Figur 1 visar normalfördelade datapunkter. [7] 15 maj 2013 15

Figur 1: Här plottas förväntad kulmutativ fördelningsfunktion mot observerad kulmutativ fördelningsfunktion i ett PP-diagram 3.4.2 Kvalitativa och kvantitativa variabler I denna rapport används olika typer av variabler, kvalitativa och kvantitativa. Dessa variabler har olika funktion då de beskriver olika slags data. En kvantitativ variabel har ordning mellan mätvärdena och lika stora skalsteg, även kallade ekvidistanta skalsteg. Kvantitativa variabler delas i sin tur in i diskreta och kontinuerliga variabler. En kontinuerlig variabel kan anta vilket värde som helst, medan en diskret variabel bara kan anta vissa värden, exempelvis heltalsvärden. Ofta kan en diskret variabel betraktas som en kontinuerlig variabel, bara det finns ordning mellan mätvärdena och ekvidistanta skalsteg. Detta gäller för samtliga variabler i denna rapport. En kvalitativ variabel ställer upp en eller flera hypoteser, den beskriver om en variabel har en viss egenskap med svaret ja eller nej. Ett exempel är om det finns hiss i ett bostadshus eller inte. För att använda en kvalitativ variabel i regressionsanalys introduceras en indikatorvariabel som kan anta värdena noll eller ett beroende på om objektet har egenskapen (värdet ett) eller inte (värdet noll). [3] 4 Variabler Följande förklarande variabler är tänkbara att inkludera i modellen. Avgift anger avgiften till bostadsrättsföreningen i kronor. 16 15 maj 2013

Boarea är bostadsrättens area i kvadratmeter. Avstånd är avståndet till Stockholms centralstation i bilväg mätt i kilometer. Pendlingstid är tiden det tar att färdas med bil till Stockholms centralstation, mätt i minuter. Byggår är det år då fastigheten är byggd. Antal rum anger antalet rum i bostadsrätten. Responsvariabeln är: Slutpris anger det totala priset på bostadsrätten i kronor. 4.1 Beskrivning av datamaterialet Datamaterialet består av 617 bostadsrätter från Stockholmsområdet. 308 bostäder var sålda år 2011 och 309 år 2012. Samtliga försäljningar ägde rum i november. Anledningen till valet av månaden november är att det inte finns någon större högtidshelg, semesterperiod eller skolstart som kan påverka bostadsrättspriserna. Åren 2011 och 2012 representerar år där reporäntan var i princip densamma samtidigt som det inte råder någon allvarlig lågkonjunktur under denna tidsperiod. För respektive såld bostadsrätt erhölls information om adress, församling, kvadratmeterpris, slutpris, byggår och månadsavgift till bostadsrättsföreningen. Information om våningsplan erhölls för en tredjedel av bostadsrätterna. Samtligt datamaterial är hämtat från Fastighetsbyrån, förutom P endlingstid och Avstånd som mätts upp i Google Maps. Ytterligare information om variablerna presenteras i Tabell 10 i Appendix. Då datamaterialet erhölls var det uppdelat efter församling och delades sedan upp tre delar som representerar Söderort, Västerort och Innerstaden för att analysera dessa separat. Orsaken till detta är att det är skilda områden och samma variabel kan ha olika inverkan beroende på område. 4.2 Avgränsning Datamaterialet täcker inte hela Stockholmsområdet, därför har analyser endast genomförts på Söderort, Västerort och Innerstaden. Datamaterial om våningsplan saknas för nästan två tredjedelar av bostadsrätterna. Därför plockas denna variabel bort ur samtliga analyser. Orelevanta variabler som kvadratmeterpris och adress betraktades inte. 15 maj 2013 17

4.3 Hypotes De parametar som förväntas ha negativ inverkan på slutpriset bör vara P endlingstid och Avstånd. Detta förväntas gälla för Söderort och Västerort, medan det är rimligt att dessa parametrar inte har någon inverkan alls för Innerstaden. Att en variabel har negativ inverkan innebär att dess tillhörande β-koefficient är negativ. På motsvarande sätt leder en positiv β-koefficient till att en variabel har positiv inverkan. Variabeln Avgif t förväntas ha negativ inverkan på slutpriset då en högre avgift leder till att det blir dyrare att bo i bostadsrätten. Därför bör slutpriset minska. En större boarea förväntas öka slutpriset, därför bör variabeln Boarea ha en positiv inverkan. Variabeln Byggår är svår att ställa upp några hypoteser om som är gemensamma för Västerort, Söderort och Innerstaden tillsammans. I Innerstaden kan sekelskifteslägenheter vara mer attraktiva än nybyggnationer, till skillnad från Västerort och Söderort där nybyggnationer förväntas vara attraktivare. Ett ökat antal rum bör öka priset på en bostadsrätt, därför förväntas variabeln Antal rum ha en positiv inverkan på slutpriset. 18 15 maj 2013

5 Genomförande Samtliga analyser genomfördes i statistikprogrammet SPSS. En stegvis regression i SPSS kontrollerar automatiskt att alla variabler som tas med i modellen är statistiskt signifikanta och genomför ett t-test. Dock kontrolleras inte alla variabelkombinationer eller om multikolinjäritet råder. Därför används stegvis regression endast för att få en uppfattning om vilka variabler som eventuellt är signifikanta. Resterande regressionsanalyser genomfördes manuellt genom att tvinga in valda variabler i modellerna. Först utfördes analyser av åren 2011 och 2012 separat, dock var det svårt att finna någon modell med relevanta ingående parametrar då datamaterialet var för litet. Därför utförs samtliga analyser på åren 2011 och 2012 tillsammans, men fortfarande separat för de olika Stockholmsområdena. Modeller med den förklarande variabeln Antal rum som en kontinuerlig variabel gav inga relevanta modeller då denna variabel inte så oväntat är kopplad till variabeln Boarea i samtliga delområden, se Figur 16, Figur 17 och Figur 18 i Appendix. Därför gjordes Antal rum om till en indikatorvariabel i samtliga analyser. Denna indikatorvariabel antar värdet ett för lägenheter med två rum eller färre, och värdet noll för lägenheter med fler än två rum. I hypotesen nämndes att de förklarande variablerna Avgif t och Boarea anses nödvändiga för samtliga modeller, vilket medför att de modeller som inte innehåller dessa variabler anses irrelevanta. I flertalet försök logaritmeras responsvariabeln. Som nämndes i teoriavsnittet medför detta att den procentuella ändringen av priset betraktas istället för slutpriset i kronor. Kraven för multipel linjär regression som bör vara uppfyllda för att en modell skall vara användbar är: Residualerna har konstant varians, vilket innebär att ingen heteroskedasticitet råder. Kontrolleras i residualplotten. Ett exempel på en residualplott visas i Figur 2. Residualerna skall vara jämnt fördelade kring noll om homoskedasticitet råder. Ingen förklarande variabel är en perfekt linjär funktion av en annan, vilket innebär att ingen allvarlig mulikolinjäritet råder. Kontrolleras genom att verifiera att V IF < 5 för samtliga förklarande variabler. Residualerna är normalfördelade. Kontrolleras i en PP-graf, som definieras i metodavsnittet. Följer residualpunkterna den räta linjen är deras normalfördelningskriterium uppfyllt. Residualplotten har ett slupmässigt mönster. Om så inte är fallet är det 15 maj 2013 19

möjligt att någon variabel bör justeras och adderas som extravariabel till modellen. [3] Figur 2: Residualplott som visar att homoskedasticitet råder Samtliga residualplottar som presenteras i denna rapport visar standardiserade residualer, vilket innebär att de är dimensionslösa. Därför kan residualplottarna direkt jämföras med varandra. 20 15 maj 2013

6 Resultat 6.1 Söderort 6.1.1 Försök 1 - stegvis regression En stegvis regression resulterade i följande modell: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avstånd) + β 3 (Avgift)+ + β 4 (Antal rum) + ɛ (15) Modellens förklaringsgrad blev R 2 = 0.51 och den skattade standardavvikelsen för residualerna cirka 500 000 kr. Residualplotten för modellen visas i Figur 3 nedan. På grund av att residualernas standardavvikelse inte är konstant i figuren förmodas att heteroskedasticitet råder. Figur 3: Standardiserad residualplott för Söderort, försök 1 Figur 4 på nästa blad visar att normalfördelningsantagandet för residualerna troligtvis inte är helt uppfyllt, då datapunkterna inte följer den utritade räta linjen. 15 maj 2013 21

Figur 4: PP-diagram för Söderort försök 1 Samtliga förklarande variabler som ingår i modellen har VIF<5, vilket tyder på att multikolinjäritet inte råder. Det innebär att de ingående förklarande variablerna är sinsemellan oberoende. Ur koefficienttabellen, Tabell 1 nedan, kan det konstateras att samtliga variabler som inkluderats i modellen är signifikant skilda från noll då deras p-värde<0.05. Genom att studera nedre och övre gränserna för konfidensintervallet i tabellen kan det konstateras att koefficienterna framför samtliga förklarande variabler har korrekt tecken då konfidensintervallen endast innehåller skattade koefficient-värden som är enbart negativa eller positiva. Det innebär att alla koefficienter antar rätt tecken och att ingen av de inkluderade variablerna bör uteslutas ur modellen. Tabell 1: Koefficienttabell för Söderort, försök 1. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel ˆβ ˆσ p-värde nedre gräns övre gräns Boarea 20967 3048 <0.001 14959 26974 Avstånd -133926 20927 <0.001-175182 -92669 Avgift -181 47 <0.001-274 -89 Antal rum -369896 107188 0.001-581016 -158375 22 15 maj 2013

6.1.2 Försök 2 - logaritmerad responsvariabel På grund av residualernas stora standardavvikelse i försök 1 och för att minska eventuell heteroskedasticitet logaritmerades responsvariabeln. Därför måste detta försök tolkas procentuellt. Denna modell tvingar in de variabler som ingick i modellen från den stegvisa regressionen i försök 1. Dessa variabler förväntas vara signifikanta även då responsvariabeln är logaritmerad. Resultatet blev följande modell: log(slutpris) = β 0 + β 1 (Boarea) + β 2 (Antal rum) + β 3 (Avgift)+ + β 4 (Avstånd) + ɛ (16) eller på ekvivalent form: Slutpris = e β 0+β 1 (Boarea)+β 2 (Antal rum)+β 3 (Avgift)+β 4 (Avstånd)+ɛ (17) Förklaringsgraden för modellen blev R 2 = 0.54 och residualernas skattade standardavvikelse cirka 24 %. I Tabell 2 nedan visas att samtliga av de i modellen inkluderade variablerna är signifikant skilda från noll då p-värdet för respektive variabel är mindre än 0.05. Tabellen visar även inverkan på slutpriset vid en enhetsökning av respektive förklarande variabel medan de övriga variablerna hålls konstanta. Tabell 2: Koefficienttabell för Söderort, försök 2. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel Procentuell inverkan ˆσ p-värde nedre gräns övre gräns Boarea 0.9% 0.1 % <0.001 0.7% 1.2 % Antal rum -22.2% 5.1% <0.001-32.3% -12.1% Avgift -0.009% <0.1 % <0.001 0.000 0.000 Avstånd -7.6% 1.0% 0.001-9.5% -5.6% Notera att variabeln Avgif t har en mycket liten procentuell inverkan på slutpriset och samtidigt är dess konfidensintervall så litet att det är svårt 15 maj 2013 23

att tolka. Anledningen är förmodligen att variabeln är definierad i enheten kronor och en ökning av variabeln med en enhet blir en ökning med en krona, något som inte har en märkbar inverkan på slutpriset. För att kunna dra några slutsatser om variabelns inverkan ändrades enheten till tusentals kronor, kkr. Resultatet presenteras i Tabell 3 nedan. Tabell 3: Koefficienttabell för Söderort, försök 2. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel. Variabeln Avgif t är definierad i enheten kkr Procentuell inverkan ˆσ p-värde nedre gräns övre gräns Boarea 0.9% 0.1 % <0.001 0.7% 1.2% Antal rum -22.2% 5.1% <0.001-32.3% -12.1% Avgift -8.7% 2.2% <0.001-13.2% -4.3% Avstånd -7.6% 1.0% <0.001-9.5% -5.6% Betraktas residualplotten i Figur 5 kan det konstateras att residualerna bildar ett slumpmässigt mönster, vilket innebär att homoskedasticitet råder. Figur 5: Standardiserad residualplott för Söderort försök 2 Normalfördelningsantagandet är i detta fall uppfyllt då Figur 6 på nästa blad visar en någorlunda rät linje. 24 15 maj 2013

Figur 6: PP-diagram för Söderort försök 2 6.2 Västerort 6.2.1 Försök 1 - stegvis regression En stegvis regression resulterade i följande modell: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avstånd) + ɛ (18) Förklaringsgraden till modellen blev R 2 = 0.60 och den skattade standardavvikelsen för residualerna cirka 422 000 kr. Anmärkningsvärt är att den förklarande variabeln Avgif t inte inkluderas i modellen. I hypotesen anses denna variabel nödvändig för samtliga modeller och därför analyseras detta försök inte vidare. 6.2.2 Försök 2 - regression Då variabeln Avgif t exkluderades i försök 1 valdes att analysera en modell med samtliga tillgängliga variabler inkluderade. Försöket resulterade i att variablerna Boarea, Avgif t, Byggår och Avstånd var signifikant skilda från noll på signifikansnivån 5%. Det innebär att vari- 15 maj 2013 25

ablerna Antal rum och P endlingstid skall exkluderas ur modellen på denna signifikansnivå. Ekvationen nedan representerar modellen för detta försök: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Byggår) + β 4 (Avstånd) + ɛ (19) Förklaringsgraden blev R 2 = 0.64 och den skattade standardavvikelsen för residualerna cirka 402 000 kr. I Tabell 4 nedan presenteras koefficienttabellen för modellen. Tabell 4: Koefficienttabell för Västerort, försök 2. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel ˆβ ˆσ p-värde nedre gräns övre gräns Boarea 26617 3396 <0.001 19891 33344 Avgift -188 67 0.006-320 -55 Byggår 6489 2257 0.005 2019 10959 Avstånd -136333 12842 <0.001-161771 -110894 Ingen allvarlig multikolinjäritet råder i modellen då samtliga variabler har ett VIF<5. Normalfördelningsantagandet för residualerna är uppfyllt då Figur 7 på nästa blad visar en relativt rät linje, förutom några avvikande punkter. 26 15 maj 2013

Figur 7: PP-diagram för Västerort försök 2 Betraktas residualplotten i Figur 8 kan det konstateras att residualerna är samlade kring noll och att mönstret är slumpmässigt, vilket innebär att homoskedasticitet råder om de utstickande datapunkterna ignoreras. På grund av att residualerna är slumpmässigt fördelade förmodas att ingen variabel i modellen bör transformeras och sedan adderas till modellen. Figur 8: Standardiserad residualplott för Västerort försök 2 15 maj 2013 27

6.2.3 Försök 3 - logaritmerad responsvariabel På grund av residualernas stora standardavvikelse i försök 2 valdes att logaritmera responsvariabeln. Enheten för variabeln Avgif t ändrades till kkr eftersom resultaten i enheten kr var svåra att tolka i försöken för Söderort. Modellen för detta försök blev följande: log(slutpris) = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Byggår)+ + β 4 (Avstånd) + ɛ (20) eller på ekvivalent form: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Byggår)+β 4 (Avstånd)+ɛ (21) Förklaringsgraden för försöket blev R 2 = 0.65 och den skattade standardavvikelsen för residualerna cirka 23 %. Regressionskoefficienternas procentuella inverkan visas i tabell 5 nedan. Tabell 5: Koefficienttabell för Västerort, försök 3. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel. Variabeln Avgif t är definierad i enheten kkr Procentuell ˆσ p-värde nedre gräns övre gräns inverkan Boarea 1.7% 0.2 % <0.001 1.3% 2.1% Avgift -14.0 % 3.8% <0.001-21.4% -6.5% Byggår 0.3% 0.1% 0.022 0.001% 0.5% Avstånd -7.7% 0.7% <0.001-9.1% -6.3% 28 15 maj 2013

PP-diagrammet i Figur 9 visar en rät linje, vilket innebär att normalfördelningsantagandet för residualerna är uppfyllt. Figur 9: PP-diagram för Västerort försök 3 Residualplotten i Figur 10 visar ett slumpmässigt mönster med residualerna samlade kring noll, vilket medför att homoskedasticitet förmodas råda. Figur 10: Standardiserad residualplott för Västerort försök 3 Samtliga variabler har V IF < 5, vilket tyder på att det inte råder någon allvarlig multikolinjäritet i modellen. 15 maj 2013 29

6.3 Innerstaden 6.3.1 Försök 1 - stegvis regression En stegvis regression resulterade i följande modell: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Byggår) + ɛ (22) Förklaringsgraden för denna modell blev R 2 = 0.89 och den skattade standardavvikelsen för residualerna cirka 440 000 kr. I Tabell 6 visas koefficienttabellen för denna modell. Tabellen visar att samtliga variabler har ett p-värde<0.001 och är därmed signifikant skilda från noll och relevanta för modellen. Tabell 6: Koefficienttabell för Innerstaden, försök 1. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel ˆβ ˆσ p-värde nedre gräns övre gräns Boarea 56024 1764 <0.001 52551 59498 Avgift -197 40 <0.001-276 -177 Byggår -3269 881 <0.001-5003 -1535 30 15 maj 2013

Betraktas Figur 11 kan det konstateras att normalfördelningsantagandet för residualerna är uppfyllt då denna figur visar en relativt rät linje. Figur 11: PP-diagram för Innerstaden försök 1 I residualplotten i Figur 12 nedan ökar residualerna längs x-axeln, vilket innebär att heteroskedasticitet råder. Plotten visar även en möjlig andragradstendens, vilket kan betyda att en extraterm eventuellt bör adderas till modellen. Denna extraterm bör vara i en potens av 1/2 för att minska den kvadratiska tendensen. Figur 12: Standardiserad residualplott för Innerstaden försök 1 I denna modell har alla variabler VIF-värden < 5 vilket inte tyder på någon 15 maj 2013 31

allvarlig multikolinjäritet. 6.3.2 Försök 2 - regression med extraterm I detta försök inkluderades de variabler som var signifikanta enligt den stegvisa regressionen i försök 1. Variablerna som exkluderades var därmed P endlingstid, Avstånd och Antal rum. Då residualplotten i försök 1 visade en eventuell andragradstendens valdes att addera extratermen Boarea. Anledningen till detta var att Boarea var den variabel som hade högst standardiserade β -värde i försök 1, se Tabell 8 i Appendix, och därför förklarade slutpriset mest. Denna modell gav en mycket hög korrelation mellan variablerna Boarea och Boarea med VIF på 57.4 respektive 57.6. 6.3.3 Försök 3 - regression med extraterm Eftersom försök 2 resulterade i en mycket hög korrelation mellan variablerna Boarea och Boarea introduceras i detta försök en ny variabel Boarea a (Boarea). För att undvika korrelation mellan Boarea och Boarea måste konstanten a väljas så att termerna är ortogonala mot varandra, vilket ger att k (Boarea i ) 3 a k (Boarea i ) 2 = 0 a = i=1 i=1 där i = 1,..., k och k är antalet observationer. Modellen representeras med ekvationen: k Boarea 3 i i=1 k Boarea 2 i i=1 Slutpris = β 0 +β 1 (Avgift)+β 2 (Byggår)+β 3 ( Boarea a (Boarea))+ɛ (23) Alla ingående variabler hade VIF< 5, och därmed existerar ingen allvarlig multikolinjäritet. Betraktas residualplotten i Figur 13 kan det konstateras att mönstret fortfarande visar en kvadratisk tendens och att heteroskedasticitet fortfarande råder. Därför analyseras detta försök inte vidare. 32 15 maj 2013

Figur 13: Standardiserad residualplott för Innerstaden försök 3 6.3.4 Försök 4 - logaritmerad responsvariabel På grund av stora residualer i försök 2 logaritmerades responsvariabeln. I denna modell inkluderades samtliga variabler, med resultatet att variablerna P endlingstid och Avstånd var icke-signifikanta. Därför upprepades försöket med dessa ickesignifikanta variabler exkluderade ur modellen. Ekvationen för modellen blev följande: log(slutpris) = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Antal rum) + β 4 (Byggår) + ɛ (24) eller ekvivalent: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Antal rum)+β 4 (Byggår)+ɛ (25) Förklaringsgraden för modellen blev R 2 = 0.89 och den skattade standardavvikelsen för residualerna cirka 13 %. Koefficienttabellen presenteras i Tabell 7 på nästa blad och visar att samtliga av de i modellen inkluderade variablerna är signifikant skilda från noll. 15 maj 2013 33

Tabell 7: Koefficienttabell för Innerstaden, försök 4. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel. Variabeln Avgif t är definierad i enheten kkr Procentuell inverkan ˆσ p nedre gräns övre gräns Boarea 1.5% 0.1% <0.001 1.3% 1.6% Avgift -3.8 % 1.2% 0.001-6.1% -1.5% Byggår -0.1% 2.7% 0.039-0.1% -0.001% Antal rum -5.6 % 3.9% <0.001-11.0% -0.3% PP-diagrammet för denna modell visas i Figur 14 och visar att normalfördelningsantagandet för residualerna är uppfyllt då denna graf visar en nästintill perfekt rät linje. Figur 14: PP-diagram för Innerstaden försök 4 I residualplotten som visas i Figur 15 kan det konstateras att homoskedasticitet råder då datapunkterna är jämt fördelade kring noll, vilket även innebär att ingen extraterm bör adderas till modellen. Det råder ingen allvarlig multikolinjäritet i modellen då alla inkluderade variabler har VIF<5. 34 15 maj 2013

Figur 15: Standardiserad residualplott för Innerstaden försök 4 7 Diskussion 7.1 Analys av modellerna 7.1.1 Söderort Förklaringsgraderna för de potentiella modellerna för Söderort är 51% respektive 54%, vilket är relativt lågt. I samtliga modeller ingick parametrarna Boarea, Avstånd, Avgift och Antal rum, men den senare modellen hade en logaritmerad responsvariabel och tolkas därför procentuellt. Notera att variabeln Byggår inte ingår i någon av modellerna, då det visade sig att denna variabel var ickesignifikant. Att denna variabel exkluderades kan bero på att det inte är en så stor spridning i datamaterialet gällande byggår i Söderort. Även variabeln P endlingstid var ickesignifikant och exkluderades ur samtliga modeller. Modellen med den logaritmerade responsvariabeln gav en högre förklaringsgrad och residualplotten som visas i Figur 5 i resultatdelen visade ett mer homoskedastiskt beteende än den icke-logaritmerade modellen samtidigt som residualernas normalfördelningsantagande är mer uppfyllt. Det finns utstickande datapunkter i residualplottarna för båda försöken. Orsaken till detta är förmodligen att datamängden kan innehålla ett fåtal bostadsrättsradhus, vars marknad inte är jämförbar med bostadsrättslägenheter. Detta leder till osäkrare skattningar av parametrarna. Ingen av modellerna visar någon tendens till multikolinjäritet för de förklarande variablerna då samtliga variabler har VIF<5. Därmed har modellen med den logaritmerade responsvariabeln en högre förklaringsgrad samtidigt som den inkluderar samma förklarande variabler som den ologaritmerade modellen. Residualerna för det logaritmerade försöket är 15 maj 2013 35

mer normalfördelade och mer homogent fördelade. Därför väljs denna modell som den slutliga modellen för Söderort. Utvärdering av vald modell Som nämndes ovan är den slutliga modellen för Söderort: Slutpris = e β 0+β 1 (Boarea)+β 2 (Antal rum)+β 3 (Avgift)+β 4 (Avstånd)+ɛ (26) För denna modell gjordes ett tvåsidigt t-test för att kontrollera att samtliga variabler som inkluderades i modellen är statistiskt signifikanta. t-värdena för respektive förklarande variabel i modellen presenteras i Tabell 9 i Appendix. För denna modell är samtliga t -värden>t c = 1.97. Detta innebär att nollhypotesen, att koefficienten skall vara noll, kan förkastas och därmed är samtliga koefficienter skilda från noll på signifikansnivån 5 %. Koefficienttabellen presenteras i Tabell 3 i resultatdelen och visar att Boarea är den enda förklarande variabel som har en positiv inverkan på slutpriset, den procentuella inverkan är 0.9%. Det innebär att lägenhetens slutpris ökar med cirka 1 % då boarean ökar med 1 m 2 samtidigt som övriga variabler hålls konstanta. Att en ökad boarea har en positiv inverkan på slutpriset anses rimligt. Tabellen visar också att Avgift och Avstånd är de variabler som har negativ inverkan på slutpriset. En ökad avgift med 1 000 kr ger en sänkning av slutpriset med cirka 9 %, medan en ökning av avståndet till Stockholm med 1 km ger en sänkning på cirka 8 %. Övriga variabler hålls konstanta i respektive fall. Detta anses rimligt då ett ökat avstånd till Stockholm bör sänka priset, eftersom bostadsrätter som ligger längre ifrån stadskärnan ofta anses mindre attraktiva. Dock innehåller Söderort områden som ligger längre från stadskärnan som är mer attraktiva än områden som ligger närmare stadskärnan. Detta medför att Söderortsområdet kan anses icke-homogent, vilket gör att modellen får ett fel på cirka 24% i skattningarna samtidigt som förklaringsgraden är förhållandevis låg. Variabeln Antal rum måste tolkas på ett annorlunda sätt än de övriga variablerna då denna är en indikatorvariabel. Variabeln medför en sänkning av slutpriset med ungefär 22% för bostadsrätter med 1 eller 2 rum jämfört med större bostadsrätter där variabeln inte har någon inverkan på priset. Det innebär att om en bostadsrätt har en boarea på 60 m 2 och har 3 rum har 36 15 maj 2013

variabeln ingen inverkan, medan en likadan bostadsrätt med 2 rum kostar cirka 22% mindre för samma avgift och avstånd till Stockholm. Konfidensintervallet i samma koefficienttabell visar att samtliga koefficienter antar rätt tecken då den nedre och övre gränsen ligger på samma sida om origo i samtliga fall. Betraktas de standardiserade β-värdena, som presenteras i Tabell 8 i Appendix, kan det konstateras att Boarea är den variabel som har mest inverkan på priset på grund av att variabelns standardiserade β -koefficient är störst. Detta anses rimligt då boarea förmodligen är den viktigaste parameter som betraktas vid köp av en bostadsrätt. Förändring av slutpriset på en bostadsrätt som kostar 2 000 000 kr: Boarea: ökar med 1 m 2 slutpris ökar med 18 000 kr. Antal rum: om bostadsrätten har maximalt två rum slutpris sänks med 440 000 kr jämfört med om bostadsrätten har fler rum. För större bostadsrätter har variabeln ingen inverkan. Avgift: ökar med 1 000 kr slutpris sänks med 180 000 kr. Avstånd: ökar med 1 km slutpris sänks med 160 000 kr. 7.1.2 Västerort Jämförs förklaringsgraderna för de tre försöken för Västerort kan det konstateras att samtliga försök har en förklaringsgrad på cirka 60-65%, vilket är relativt lågt trots att de är högre än för Söderort. Orsaken till att förklaringsgraden trots allt är så låg kan vara att analysen för Västerort utförs på mycket färre observationer än för övriga områden, i Innerstaden är det dubbelt så många. En annan förklaring till den låga förklaringsgraden är att Västerort är inte ett homogent område, och det är därför svårt att generalisera. Västerort omfattar områden som är olika attraktiva. Trots att en bostadsrätt har ett stort avstånd till statskärnan kan den ändå ha ett högre pris än en annan bostadsrätt som ligger närmare stadskärnan på grund av att området anses mer attraktivt. Nämnvärt är att variabeln Antal rum är icke-signifikant i samtliga modeller för Västerort och måste därmed exkluderas. Detta kan dels bero på att datamaterialet för Västerort är avsevärt mindre än för de övriga områdena, som nämndes ovan. En annan förklaring kan vara att datamaterialet består av väldigt många bostadsrätter med fler än två rum, vilket innebär att denna indikatorvariabel inte får någon 15 maj 2013 37

inverkan för dessa bostadsrätter och därmed exkluderas ur modellen. Även variabeln P endlingstid visade sig vara icke-signifikant för samtliga modeller. Det kan konstateras att modellen som erhölls ur den stegvisa regressionen i det första försöket inte är användbar då den exkluderar variabeln Avgif t som anses nödvändig för att kunna modellera slutpriset. I de två resterande försök ingår samma parametrar: Boarea, Avgif t, Byggår och Avstånd, skillnaden är att i ett av försöken betraktas procentuella skillnader då responsvariabeln är logaritmerad. Förklaringsgraden för försöket med icke-logaritmerad responsvariabel är lägre, 64 %, jämfört med 65 % i försöket med den logaritmerade responsvariabeln. Detta innebär att det senare försöket förklarar slutpriset bättre då förklaringsgraden är högre samtidigt som samma förklarande variabler är inkluderade i modellerna. Ytterligare en skillnad mellan försöken är att normalfördelningsantagandet anses vara mer uppfyllt då responsvariabeln är logaritmerad. I denna modell visas också att residualerna är mer jämnt fördelade kring noll och därmed är homoskedasticitetsantagandet mer uppfyllt. På grund av dessa orsaker väljs detta försök som den slutliga modellen för Västerort. Utvärdering av vald modell Enligt resonemanget ovan valdes följande modell för Västerort: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Byggår)+β 4 (Avstånd)+ɛ (27) För den valda modellen gjordes ett tvåsidigt t-test för att kontrollera att alla variabler som inkluderats i modellen bör ingå. Jämförs t-värdena för respektive variabel, se Tabell 9 i Appendix, kan det konstateras att samtliga t -värden>t c = 1.98. Detta innebär att samtliga koefficienter är skilda från noll på signifikansnivån 5 % och bör ingå i modellen. Koefficienttabellen som presenteras i Tabell 5 i resultatdelen visar att Boarea och Byggår är variabler som har positiv procentuell inverkan på slutpriset med 1.7 % respektive 0.3%. Det innebär att om boarean ökar med 1m 2 ökas slutpriset med 1.7 %, medan slutpriset ökar med 0.3% om byggåret ökar med ett år. Att variabeln Byggår har en positiv inverkan anses rimligt då nybyggda bostadsrätter utanför Innerstaden ofta anses mer attraktiva. Byggår är den enda variabel som har ett p-värde >0.001, och är därför minst signifikant för modellen. Tabellen visar också att de variabler som en har negativ procentuell inverkan på slutpriset är Avstånd och Avgift med -7.7 % respektive -14.0%. Notera att variabeln Avgif t har en mycket stor procentuell inverkan jämfört med övriga variabler. Detta gör att denna variabel kommer att sänka slutpriset väldigt mycket för större lägenheter. Detta datamaterial innehöll 38 15 maj 2013

bara bostadsrätter inom prisintervallet 1 000 000 till 3 000 000, så modellen lämpar sig inte till att betrakta prisförändringar för bostadsrätter vars pris är avsevärt högre än detta prisintervall. Konfidensintervallet visar att samtliga koefficienter antar rätt tecken då den nedre och övre gränsen ligger på samma sida om origo i samtliga fall. Residualernas skattade standardavvikelse är cirka 23%, vilket är mindre än för den valda modellen för Söderort. Betraktas de standardiserade β-koefficienterna som presenteras i Tabell 8 i Appendix, kan det konstateras att Boarea är den variabel som förklarar slutpriset mest. För denna modell gjordes en analys av prisförändringar för en bostadsrätts lägenhet med följande egenskaper: Förändring av slutpriset på en bostadsrätt som kostar 2 000 000 kr: Boarea: ökar med 1 m 2 slutpris ökar med 34 000 kr. Avgift: ökar med 1 000 kr slutpris sänks med 280 000 kr. Avstånd: ökar med 1 km slutpris sänks med 154 000 kr. Byggår: ökar med 1 år slutpris sänks med 6 000 kr. 7.1.3 Innerstaden Förklaringsgraderna för samtliga försök blev avsevärt högre för Innerstaden jämfört med övriga delar av Stockholm, cirka 90% vilket är 30% högre än för Söderort och Västerort. Orsaken till detta är förmodligen att Innerstaden är ett mer homogent område och att antalet observationer är avsevärt fler. Variablerna som inkluderades i samtliga modeller var Boarea, Avgif t och Byggår. Här har variablerna Avstånd och P endlingstid exkluderats då det visade sig vara icke-signifikanta för modellerna. Detta är rimligt då avståndet till stadskärnan knappt skiljer sig mellan delområdena i Innerstaden. Anmärkningsvärt är att variabeln Antal rum är icke-signifikant i de modeller där responsvariabeln inte logaritmeras, men kan inkluderas då responsvariabeln logaritmerats. En orsak är att residualerna ändrar skala vid logaritmering och nu betraktas den procentuella inverkan på responsvariabeln. Med det logaritmerade försöket övergår de tidigare heteroskedastiskt fördelade residualerna i en homoskedastisk fördelning. 15 maj 2013 39

I samtliga modeller har variabeln Byggår en negativ inverkan på priset, vilket skiljer sig från Västerort. Det innebär att bostadsrätter i en äldre fastighet får ett högre slutpris. Detta är rimligt då priset på sekelskifteslägenheter har skjutit i höjden de senaste åren. Innan responsvariabeln logaritmerades visade residualerna en möjlig kvadratisk tendens, vilket visas i Figur 12 i resultatdelen. Detta utreddes i senare försök genom att introducera en ny variabel. Detta resulterade inte i någon minskning av heteroskedasticiteten eller den eventuella kvadratiska tendensen. Därför bör ingen kvadratisk tendens finnas i försöken, troligtvis är det endast så att heteroskedasticitet råder. Därav kan det konstateras att endast två försök anses relevanta för vidare analys. Dessa är försöket med stegvis regression och försöket med den logaritmerade responsvariabeln. Dessa presenteras som försök ett respektive fyra i resultatdelen för Innerstaden. Båda försöken har samma förklaringsgrad på 89%, men det senare försöket uppfyller normalfördelningsantagandet mer väl. Skillnaderna mellan försöken är att heteroskedasticitet troligtvis råder i modellen från den stegvisa regressionen. Båda försöken inkluderar samma förklarande variabler, förutom att försöket med den logaritmerade responsvariabeln inkluderar variabeln Antal rum. Inget av försöken påvisar tendens till multikolinjäritet. På grund av att homoskedasticitet endast råder i det senare försöket väljs modellen från detta försök till den modell som bäst modellerar prisförändringar på en bostadsrätt i Innerstaden. Här hade AIC- och BIC-värdena varit intressanta att jämföra, dock är detta inte möjligt då AIC och BIC för transformerade modeller endast är jämförbara med varandra. Utvärdering av vald modell Enligt resonemanget ovan valdes följande modell för Innerstaden: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Antal rum)+β 4 (Byggår)+ɛ (28) Tabell 9 i Appendix visar att alla ˆβ-koefficienter framför de förklarande variablerna är signifikant skilda från noll då samtliga t-värden i tabellen uppfyller kravet att t > t c = 1.9690. Därför är variablerna korrekt inkluderade i modellen ovan. Residualernas skattade standardavvikelse är 13 % för denna modell. Koefficientabellen som presenteras i Tabell 7 i resultatdelen visar att Boarea är den enda variabel som har en positiv inverkan på slutpriset. Tabellen visar att variabeln påverkar priset med en procentuell ökning av 1.5 % då boarean ökar med 1 m 2 samtidigt som övriga variabler hålls konstanta. Resultatet anses rimligt då bostadsrätter med större boyta bör vara dyrare. 40 15 maj 2013

Variabeln Avgif t har en negativ inverkan på slutpriset på ett sådant sätt att en ökning av avgiften med 1 000 kr sänker priset med 3.8%. Den negativa inverkan anses rimlig då en ökad månadsavgift till bostadsrättsföreningen bör minska slutpriset. Även Byggår har en negativ inverkan på slutpriset med en procentuell minskning på 0.1%. Detta anses rimligt för denna del av Stockholm då äldre fastigheter förmodas vara mer attraktiva på bostadsmarknaden än nybyggnationer. På samma sätt som för Söderort måste variabeln Antal rum tolkas på ett annorlunda sätt då det är en indikatorvariabel. Tabellen visar att variabeln ger en procentuell sänkning av slutpriset med 5.6% då bostadsrätten har två rum eller färre. Har bostadsrätten fler än två rum har variabeln ingen inverkan på slutpriset. Betraktas konfidensintervallet i samma tabell kan det konstateras att samtliga koefficienter antar rätt tecken då den nedre och övre gränsen ligger på samma sida om origo i samtliga fall. Den förklarande variabel som har störst inverkan på slutpriset är Boarea då dess standardiserade β-koefficient är störst till beloppet, vilket presenteras i Tabell 8 i Appendix. Förändring av slutpriset på en bostadsrätt som kostar 2 000 000 kr: Boarea: ökar med 1 m 2 slutpris ökar med 30 000 kr. Avgift: ökar med 1 000 kr slutpris sänks med 76 000 kr. Antal rum: om bostadsrätten har maximalt två rum slutpris sänks med 112 000 kr. För bostadsrätter med fler än två rum sker ingen prisförändring. Byggår: ökar med 1 år slutpris sänks med 2 000 kr. 7.1.4 Utvärdering av resultaten Förklaringsgraden för de valda modellerna skiljer sig avsevärt mellan de olika stadsområdena. För Söderort blev förklaringsgraden 54%, för Västerort 65% och för Innerstaden 89%. Residualernas skattade standardavvikelse blev 22%, 23% respektive 13% för modellerna. Det kan då konstateras att förklaringsgraden för Innerstaden är högst samtidigt som residualerna är minst. Orsaken till detta är att det för Innerstaden erhölls ett datamaterial med avsevärt fler observationer, vilket medför säkrare skattningar. Innerstadsområdet är mer homogent än övriga områden, vilket medför att det är lättare att finna en modell som beskriver bostadsrättspriser i Innerstaden. Samtidigt bör inte bostadsrättsradhus finnas i datamaterialet för Innerstaden, 15 maj 2013 41

vilket leder till färre avvikande datapunkter. Marknaden för bostadsrättsradhus skiljer sig mycket från bostadsrättslägenheter, då denna marknad är mer lämpad att jämföras med villamarknaden. Dessa är troligtvis orsakerna till att Innerstadsmodellen fick avsevärt större förklaringsgrad och mindre residualer än övriga områden. I Västerort och Söderort är det mer sannolikt att bostadsrättsradhus finns i datamaterialet, vilket leder till fler avvikande värden. Eftersom det är stor spridning mellan bostadsrättspriser som kan sträcka sig från några hundra tusen till tiotals miljoner kronor anses det lämpligare att betrakta residualernas procentuella inverkan. De modeller som betraktar det faktiska slutpriset anses inte lämpliga för analys av bostadspriser då residualerna kan ha mycket stor inverkan på bostadsrätter med lägre slutpris och knappt någon inverkan alls då slutpriset är mycket högre. Därför väljs modeller med logaritmerad responsvariabel för samtliga stadsområden. I flera fall övergick heteroskedastiskt fördelade residualer i homoskedastisk fördelning då responsvariabeln logaritmerats. Anmärkningsvärt är att en extravariabel, Antal rum, endast inkluderades i modellen för Innerstaden då de procentuella skillnaderna betraktades. Multikolinjäritet och förklaringsgrad förändrades inte märkbart då responsvariabeln logaritmerades. För samtliga stadsområden blev Boarea den variabel som påverkade priset mest. Även Avgif t inkluderades i samtliga modeller då den i hypotesen ansågs nödvändig. P endlingstid är den enda variabel som exkluderades ur samtliga modeller och har därför ingen inverkan på slutpriset. Anledningen är att variabeln troligtvis är kopplad till Avstånd och är därför svåra att ha med i samma modell. I framtagna modellerna tar endast indikatorvariabeln Antal rum hänsyn till att det är en annan marknad för små bostadsrätter med maximalt två rum, än för större lägenheter. Det gjordes försök med analys av endast små bostadsrätter, dock med mindre datamaterial. Detta medförde sämre skattningar och därför presenteras inte dessa modeller i rapporten. Vi anser att de modeller vi har tagit fram är mer lämpade för att betrakta procentuella prisförändringar än att att prediktera det faktiska slutpriset på en bostadsrätt. Anledningen till detta är att det är så många faktorer som påverkar priset och därför anser vi det svårt att med de fåtal faktorer vi fått tillgång till att prediktera ett faktiskt slutpris. Betraktas istället prisförändringar kan vi utgå ifrån ett referenspris, vilket ger rimligare resultat. Hade analyserna utförts på mer datamaterial och med fler förklarande variabler hade ett bättre resultat erhållits. 42 15 maj 2013

8 Slutsats Tre modeller har tagits fram för respektive stadsområde i Stockholm. Dessa modeller betraktar endast procentuella förändringar av slutpriset på en bostadsrätt. De additiva modellerna som togs fram uppfyller inte de antaganden som bör vara uppfyllda för en multipel regressionsanalys. Därför dras slutsatsen att det inte går att modellera det faktiska slutpriset på en bostadsrätt med de tillgängliga potentiella förklarande variablerna och erhållet datamaterial med en additiv modell. Däremot uppfyller de modeller som betraktar variablernas procentuella inverkan på slutpriset antagandena för regressionsanalys på ett godtagbart sätt. Den främsta orsaken till detta är den stora spridningen i datamaterialet och att antalet förklarande variabler var få. Den bäst framtagna modellen blev den för Innerstaden som är det mest homogena området och ger en modell med rimliga procentuella förändringar. 15 maj 2013 43

Referenser [1] Lang H. Topics on Applied Mathematical Statistics. Stockholm: Institutionen för Matematisk Statistik vid Kungliga Tekniska Högskolan; 2012. [2] Sundberg R. Lineära Statistiska Modeller. Stockholm: Institutionen för Matematisk vid Stockholms Universitet; 2012. [3] A.H. Studemund Using econometrics, 5th edition. Boston: Pearson and Addison-Wesley; 2006. [4] Wahlgren L. SPSS steg för steg. Lund: Studentlitteratur; 2012. [5] Standardized Coefficients: faktablad. South Bend: University of Notre Dame du Lac; 2013 [läst 29 april 2013]. Tillgänglig: http://www3.nd.edu/~rwilliam/stats1/x92.pdf [6] Evans M, Hastings N, Peacock B. Statistical Distributions, 3rd ed. New York: 2010. [7] PP-plot: faktablad. New York: IBM Company; 2011. [läst 20 april 2013]. Tillgänglig: http://publib.boulder.ibm.com/infocenter/spssstat/v20r0m0/ index.jsp?topic=%2fcom.ibm.spss.statistics.help%2fidh_ gnpp.htm 44 15 maj 2013

9 Appendix Tabell 8: Standaridiserade β-koefficienter för de valda modellerna i respektive stadsområde Söderort Västerort Innerstaden Boarea 0.611 0.947 0.994 Antal rum -0.314 icke-signifikant -0.069 Avgift -0.309-0.412-0.112 Avstånd -0.361-0.651 icke-signifikant Byggår icke-signifikant 0.160-0.060 Pendlingstid icke-signifikant icke-signifikant icke-signifikant Tabell 9: Beräknade t-värden för de valda modellerna för respektive statsområde Söderort Västerort Innerstaden Boarea 6.4 9 24.3 Antal rum -4.3 icke-signifikant -2.1 Avgift -3.9-3.7-3.2 Avstånd -7.5-10.6 icke-signifikant Byggår icke-signifikant 2.3-2.6 Pendlingstid icke-signifikant icke-signifikant icke-signifikant Figur 16: Korrelationsplott mellan boarea och antal rum för Söderort 15 maj 2013 45

Figur 17: Korrelationsplott mellan boarea och antal rum för Västerort Figur 18: Korrelationsplott mellan boarea och antal rum för Innerstaden 46 15 maj 2013