EN UNDERSÖKNING KRING PRISPÅVERKAN VID INRÄTTANDE AV EN NYBYGGNATION Kandidatexamensarbete vid KTH Matematik avd. Matematisk Statistik Handledare: Gunnar Englund Stockholm, 2013 AV Markus Andersson Nirankar Singh Kungliga Tekniska Högskolan
Abstract This report is aimed at building companies and brokers who are interested to see how the trends in prices are on older buildings, near a new construction project. It may be that it is easier for construction companies to get through the planning permission if it can be shown that the new construction projects have a positive impact on the price of existing adjacent buildings. The study may be viewed as a pilot project where this kind of reports are rare and probably not done before in Sweden. The model must be extended to more areas in order to ensure the result of higher significance. The conclusion about the study is that it is an indication of positive price impact, but the modeling and the approach has been the central focus of the study. It is likely to assume that in order to make a better model, even more factors have be taken into account. For example, it is possible that when a construction project is built, it can be improved communications to the area, new stores can be built or similar improvements, so even such aspects would be needed for a more rigorous study. iii
Sammanfattning Den här rapporten är riktad till byggbolag och mäklare som är intresserade av att se hur prisutvecklingen på äldre bebyggelse är kring ett nybyggnadsprojekt. Det kan tänkas att det är lättare för byggbolag att få igenom bygglov om det kan påvisas att nybyggnadsprojekt har en positiv inverkan på priset gällande närliggande byggnation. Studien får dock ses som ett pilotprojekt då arbeten av den här typen är ovanliga och troligen inte utförda tidigare i Sverige. Modellen behöver utvidgas med fler områden för att kunna säkerställa resultatet med högre signifikans. Slutsatsen kring studien är att det finns indikation på positiv prispåverkan, men modelleringen och tillvägagångssättet har varit det centrala i studien. Det är troligt att anta att för att göra en så god modell som möjligt behövs även fler faktorer beaktas. Exempelvis kan det tänkas att då ett nybyggnadsprojekt byggs, förbättras även kommunikationerna till området det kan byggas nya butiker eller motsvarande förbättringar, så även sådana aspekter skulle behövas för en mer rigorös studie. Keywords: prediktion, multipel linjär regression, nyproduktion, bostadsmarknad, Valueguard, R-programming.
Förord Rapporten är skriven som en del av kandidatexamensarbetet vid SCI-skolan vid Kungliga Tekniska Högskolan med Matematikinstitutionen på KTH avdelning Matematisk Statistik som beställare. Studien har utförts av Markus Andersson och Nirankar Singh, studenter på programmet Farkostteknik. Handledare under projektet har varit Gunnar Englund. Projektarbetet har bestått av fyra delar: problemformulering, datainsamling, matematisk modellering i programspråket R samt rapportskrivning. Den största utmaningen samt huvudpoängen i projektet har varit den matematiska modelleringen. Vi vill tacka vår Handledare Gunnar Englund för alla tips, råd och diskussioner under projektets gång. Vi vill även ägna ett tack till Lars-Erik Ericsson från Valueguard för hjälp med problemformulering och tillhandahållandet av data till studien. Vi vill även tacka Harald Lang på Matematikinstitutionen på KTH avd. Matematisk Statistik för hjälp med en del av modelleringen. Markus Andersson och Nirankar Singh Stockholm 2013 iv
Innehåll 1 Introduktion 1 2 Terminologi 3 2.1 Regressionsanalys......................... 3 Antaganden........................ 3 2.1.1 Multipel linjär regression................ 4 Linjär algebra....................... 4 Prediktion......................... 5 2.2 Heteroskedasticitet........................ 5 Breusch-Pagan Test................... 6 Robust regression..................... 6 2.3 Multikollinearitet......................... 7 VIF (Variance Inflation Factor)............. 7 3 Metod 9 3.1 Grundekvationen......................... 9 3.1.1 Funktioner och packages i R.............. 11 3.1.2 White s Consistent Variance Estimator......... 11 4 Analys 13 4.1 Solna................................ 13 4.1.1 Filmstaden........................ 14 Filmstaden 2005-2007.................. 14 Filmstaden 2010-2013.................. 16 4.1.2 Resultat.......................... 19 4.1.3 Råsunda.......................... 19 Råsunda 2005-2007.................... 19 Råsunda 2010-2013.................... 21 4.1.4 Resultat.......................... 23 4.2 Kungsholmen........................... 23 4.2.1 Lindhagen........................ 23 Lindhagen 2005-2007................... 23 Lindhagen 2010-2013................... 26 v
4.2.2 Resultat.......................... 28 4.2.3 Kungsholmen innanför tullarna............. 28 Kungsholmen 2005-2007................. 28 Kungsholmen 2010-2013................. 30 4.2.4 Resultat.......................... 32 4.3 Hägersten............................. 32 4.3.1 Telefonplan........................ 32 Telefonplan 2005-2007.................. 32 Telefonplan 2010-2013.................. 34 4.3.2 Resultat.......................... 36 4.3.3 Midsommarkransen och Aspudden........... 36 Midsommarkrans/Aspudden 2005-2007......... 36 Midsommar/Aspudden 2010-2013............ 38 4.3.4 Resultat.......................... 41 5 Diskussion 43 5.1 Utvecklingsmöjligheter...................... 43 5.2 Val av programspråk....................... 43 6 Referenser 45 7 Appendix 47 7.1 R-kod............................... 47 7.2 Figurer............................... 48 vi
Kapitel 1 Introduktion I det här projektet har en analys utförts där prispåverkan på närområdet varit mål för undersökning, när ett nybyggnadsprojekt byggs invid äldre bebyggelse. En datafil med ca 237 000 försäljningar under åren 2005-2013 har bearbetats i Excel och sedan importerats till R 1, där regressionsanalyser genomförts. Det är tre områden i Stockholmsregionen som har analyserats där nybyggnadsprojekt varit färdigställda år 2009; Gamla Filmstaden i Solna, Lindhagensterrassen på Kungsholmen och Telefonplan i Hägersten. Idén för att påvisa prispåverkan är genom multipel prediktion, då för var och ett av områdena genom att göra en regression på data innan nybyggnadsprojektet är färdigställt (år 2005-2007) och en regression efter det är färdigställt (år 2010-2013). Därefter görs en prediktion på en försäljning år 2005 och jämförs med en prediktion år 2013, indatan i prediktionen är i övrigt samma för var och ett av områdena, bortsett från försäljningsår där den tidigare modellen är styrande (medelvärden från dataurvalet har använts). De områden som har används som index för respektive område är Råsunda i Solna, Kungsholmen innanför tullarna och Midsommarkransen/Aspudden i Hägersten. Den procentuella prisökningen i närområdet till varje nybyggnadsprojekt har jämförts mot ett område något längre ifrån nybyggnadsprojektet (de områden som verkat som indexerande). Viktigt att poängtera är att endast ett urval av äldre bebyggelse (byggd innan år 2000) har tagits med i dataurvalet, på sätt har det faktumet att byggnadsår följer en icke-linjär struktur dämpats en aning. 1 R är ett programmeringsspråk för statistiska analyser 1
I områdena närmast nybyggnadsprojekten har prisbilden varit homogen och det har varit viktigt att välja indexerande områden på sådant sätt att prisbilden även där har varit av homogen art, för att få en så god prediktion som möjligt. Om det är så att prisbilden på urvalet varierar kraftigt uppkommer problem med så kallade outliers som försämrar kvalitén av data och kan orsaka en felaktig prediktion. Valueguard Studien har utförts i samarbete Valueguard i Uppsala som har tiilhandahållit data och hjälpt till med problemformuleringen. Valueguard arbetar för att skapa nya finansiella produkter för bostadsmarknaden. Vi tillhandahåller också analyser och informationstjänster. Som grund för många av våra produkter och tjänster ligger ett prisindex för bostäder - Nasdaq OMX Valueguard-KTH Housing Index (HOX ). HOX Index har utvecklats i samarbete med KTH, det distribueras av Nasdaq OMX och det bygger på data levererad av bl.a. Svensk Mäklarstatistik AB och Lantmäteriet. 2 2 www.valueguard.se 2
Kapitel 2 Terminologi 2.1 Regressionsanalys Regression är en gren inom statistiken där målet är att skapa en matematisk modell eller en funktion som anpassas efter observerad data. Man är då intresserad av om det finns linjärt samband mellan två variabler i fallet med en enkel linjär regression[1]. Vid enkel linjär regression utgår man från att en rät linje ska anpassas till uppmätt data[2]. Den enkla linjära regressionsmodellen ges av Y = 0 + 1 X. (2.1) där 0 är skärning med y-axeln, kallas även för intercept och 1 är lutningen på den räta linjen. Den beroende och även s.k responsvariabel som påverkas är Y, medan den oberoende och förklarande variabeln som påverkar är X. Antaganden För att kunna dra slutsatsen av analysen i modellen måste vissa antaganden göras. Den linjära regressionsmodellen bygger på några grundläggande antaganden[3] som måste vara uppfyllda, som lyder: 1. Den beroende variabeln kan skrivas som en linjär funktion av K 1 stycken förklarande variabler x 2i,x 3i,...,x Ki, ett intercept 0 samt en residual i. Y i = 0 + 1i X 1i + 2i X 2i +...+ K X Ki + i (2.2) 2. Det förväntade värdet av residualen i är lika med 0. E( i )=0 (2.3) 3
3. Residualen i är homoskedastisk; i har samma varians för alla i. 2 = Var( i ) (2.4) 4. Residualen i har en normalfördelning. i N(0, 2 ) (2.5) 2.1.1 Multipel linjär regression Linjär algebra När det är två eller fler förklarande variabler i en modell tillämpar man multipel regression. Det är en teknik med vilken man kan undersöka om det finns ett statistiskt samband mellan en responsvariabel Y och de förklarande variablerna X i där i =1...n. Den multipla linjära regressionsmodellen ges av Y = 0 + 1 X 1 + 2 X 2 +...+ n X n + e (2.6) där e är feltermen, som även kallas för residualen. De estimerade koefficienterna ˆi i =1...n, skattas med OLS estimering (Ordinary Least Squares) av genom matrisoperationer. ˆ =(X t X) 1 X t Y (2.7) 2 Y = 6 4 y 1 y 2. y n 3 7 5 2 1 x 11 x 12 x 1k 1 x 21 x 22 x 2k X = 1 x 31 x 32 x 3k 6 4....... 1 x n1 x n2 x nk 2 3 ˆ = 6 4. 1 2 k 7 5 3 7 5 där ˆ är värdet av som minimerar summan av kvadraterna ê t ê = ê 2 av residualerna ê = Y X ˆ. Där även normalekvationen[13] X t ê =0används. Kovariansmatrisen för ˆ beräknas på följande sätt cov( ˆ X) =(X t X) 1 2 (2.8) 4
En väntevärdesriktig skattning av 2 är s 2 = 1 n k 1 ê 2 (2.9) där n står för antal observationer och k för antalet kovariater. En estimering av kovariansmatrisen blir således cov( ˆ X) =(X t X) 1 s 2 (2.10) Prediktion Den linjära modellen har flera användningsområden, där bl.a till prediktion[13]. Prediktion är en metod att estimera framtida och därmed okända värden, baserat på tidigare kända värden[14]. Med en given radvektor med förklarande variablerna X i där i =1...n, kan predikterade värden på Y estimeras med Y p genom Y p = X i ˆ (2.11) 2.2 Heteroskedasticitet Det tredje antagandet i den linjära regressionsmodellen kräver att residualen har likformig varians dvs att residualen är homoskedastisk. När det här antagandet inte uppfylls har vi något som kallas för heteroskedasticitet, d.v.s. att residualen ses som tagen ur en annan distribution för varje observation, se Figur 2.2.1. Figur 2.2.1: En regression där heteroskedasiticitet påvisas. Residualen plottas 5
mot en förklarande variabel. Heteroskedasticitet kan ses visuellt i en graf där residualerna plottas mot de förklarande variabelerna, för att se om spridningen hos residualerna beror på variablerna. Heteroskedasticitet kan även visas med hjälp av en rad olika tester så som The Eyeball Test, The Goldfeld-Quandt Test, The Breusch-Pagan Test och The Whites Test. Konsekvensen med att använda en modell med data som är heteroskedastisk är att hypotesprövningar, intervallestimeringar och det kalkylerade standardfelet för minsta kvadrat estimatorerna blir felaktiga, d.v.s. att standardfelet får en bias[4]. Bias av en estimator är differansen mellan estimatorns förväntade värde och det sanna värdet av parametern som estimeras. Själva koefficienterna, d.v.s. de estimerade i påverkas inte av att modellen innehåller data som är heteroskedastisk. Breusch-Pagan Test För att testa om heteroskedasticitet finns närvarande i given data har Breusch- Pagan Test användts. Breusch-Pagan testet innebär att man estimerar modellen i ekvation (2.2) genom att göra en OLS regression på modellen för att få residualerna û. Residualerna kvadreras û 2 för att negativa värden inte ska ta ut positiva värden. Dessa residualer används i regressionen mot de förklarande variablerna (X 1,X 2,X 3...X n ). Regressionen blir då û 2 i = 0 + 1 X 1 + 2 X 2 +...+ n X n + (2.12) För att avgöra om heteroskedastisitet är närvarande testar man då lutningen på variablerna mot noll. Hypotesen[5] blir således H 0 : a 1 = a 2 =... = a n =0 (2.13) H 1 : något i 6=0 där i =1...n (2.14) Om p-värdet är litet beroende på vald signifikansnivå, förkastas nollhypotesen H 0 om homoskedasticitet. Robust regression Vid misstanke om heteroskedasticitet kan två strategier användas, den första är GLS (Generalized Least Square) estimatorn[6]. GLS estimatorn har föredelen att kunna kompensera fullt ut för heteroskedasticitet och det här gör 6
att GLS är asymptotiskt effektivare relativt till OLS. Den stora nackdelen med GLS är att formen på heteroskedasticiteten måste vara känd, vilket kan vara svårt att veta i vissa fall. Den andra strategin är att använda metoden robust standard errors. Med den här metoden behöver man inte veta formen på heteroskedasticiteten. Vanliga OLS:en antar att residualen är oberoende och normalfördelad. Som det nämndes ovan, så gör heteroskedasticitet att standardfelet får en bias. Det här problemet löses med robust regression i det här fallet. Man kan säga att modellen estimeras med OLS, men för att estimera standardfelet används robusta standard error, som ser till att ordna de inkonsistenta standardfelen[7]. 2.3 Multikollinearitet I en regressionsmodell försöker man beskriva den beroende variabeln Y med de oberoende variablerna (X 1,X 2,X 3...X n ), men i vissa fall uppstår det ett problem då minst två eller flera av de oberoende variablerna är korrelerade med varandra. Det här kallas för multikollinearitet, problemet med det är att det inte går att skilja på effekten från de korrelerade variablerna på den beroende variabeln. Multikollinearitet beror inte på någon teoretisk eller aktuell linjär relation mellan någon regressand, utan endast på en approximativt linjär relation mellan de oberoende variablerna i just den data man har till hands. Med data från ett kontrollerad experimentet kan man eliminera multikollinearitet, men det är sällan man har den här möjligheten[15]. VIF (Variance Inflation Factor) För att ta reda på om multikollinearitet finns i aktuell data, kan korrelationsmatrisen vara användbar. Korrelationsmatrisen är kvadratisk, symmetrisk och har ettor på diagonalen p.g.a. att elementet i kolumnen är korrelerad med sig själv. Matrisen beskriver alltså korrelationen mellan de oberoende variablerna. Inversen av korrelationsmatrisen är speciellt användbar till att upptäcka multikolliniearitet, då diagonal elementen på matrisen blir varians inflations faktorer så kallade VIF i, och ges av (1 Ri 2) 1 där Ri 2 är R-kvadrat från regressionens i:te variabel. R-kvadrat förklarar om hur verkligt det är att variablerna är beroende av varandra och inte av något annat[8]. VIF-värdet beräknas för varje variabel (X 1,X 2,X 3...X n ) och, om modellen i ekvation (2.2) betraktas kan VIFvärden generellt beräknas[9] på följaden sätt: För varje oberoende variabel X k där k =1...n beräknas VIF-värdet genom 7
att ha den oberoende variabeln i vänster-ledet och sedan utföra OLS. Det här görs för alla variabler. om k =1: Sedan beräknas VIF i genom X 1 = 0 + 2 X 2 +...+ k X k +. (2.15) VIF i = 1 (1 R 2 i ) (2.16) Tumregeln säger att om det erhållna värdet av VIF i > 10 indikerar att aktuell data har skadlig multikollinearitet. När given data innehåller multikollinearitet påverkar det variansen på de OLS estimerade parametrarna till de multikollineara variablerna, det här p.g.a att det inte finns tillräckligt med variation i variabeln för att kunna visa vilken effekt den har på den beroende variabeln [10]. Högre korrelation mellan de oberoende variablerna ger mindre information till OLS regressionen för att estimera parametrarna, vilket leder till högre varians. Multikollinaritet går att ordna till genom att antingen tillföra mer information/mer data eller bortse från faktumet att multikolliniearitet finns. Genom att tillföra mer data ökar man informationen för OLS estimatorn som leder till att variansen minskar, multikolliniaritet är ett data problem och genom att tillföra mer data som inte innehåller multikolliniearietet minskar man problemet med det. Det går även att ta bort en förklarande variabel i modellen för att bryta korrelationen mellan två eller flera variabler, den andra metoden är att inte göra någonting[10]. 8
Kapitel 3 Metod 3.1 Grundekvationen Den data som analysen grundar sig på har tillhandahållits från Valueguard med 231 916 stycken försäljningar i Stockholmsregionen mellan åren 2005-2013. Ur det här datasetet har en selektion av sex olika områden, (tre nära ett nybyggnadsprojekt samt tre indexerande områden) vid två olika tidsperioder. Vid undersökning av prispåverkan på äldre bebyggelse vid inrättandet av en nybyggnation, samt det indexerande området, har en och samma grundekvation använts. Anledningen varför en och samma grundekvation har använts är att totalt tolv olika modeller har jämförts och grundekvationen kan ses som en gemensam nämnare mellan modellerna. Kovariaterna som ingår i grundekvationen är de viktigaste komponenterna vid prissättning av en bostadsrätt. log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 + (b year) 7 +(year nr) 8 + (3.1) Förklaring av variabler och förväntat tecken på deras estimerade koefficient ˆ : log t price = försäljningspriset logaritmerat (det här för att dämpa effekten av hetroskedaticitet) h area = bostadens area, förväntat tecken + 9
monthlyf ee h area = månadsavgift per kvadratmeter, förväntat tecken h rooms = antalet rum i bostaden, förväntat tecken + h floor no elevator = bostadens våningsplan när det inte finns hiss i fastigheten, förväntat tecken h floor elevator = bostadens våningsplan då det finns hiss i fastigheten, förväntat tecken + b elevator = en dummyvariabel, 1 om det finns hiss i fastigheten, 0 om det inte finns hiss, förväntat tecken + b year = byggnadsår, förväntat tecken (det här är approximativt eftersom max(b year) = 2000, med lägst prisnivå ~-60,-70-tal) year nr = försäljningsår, förväntat tecken + Det hade varit önskevärt att ha med kovariaten balkong i grundekvationen. Tyvärr var kvaliteten av informationen kring det bristfällande i datasetet, därav togs kovariaten balkong bort från grundekvationen. Inledningsvis användes variabeln monthlyfee, d.v.s. månadsavgift som en förklarande variabel. Problemet som uppstod då var att månadsavgiften och bostadens area var korrelerade. För att kringgå det här faktumet, transformerades variabeln till monthlyfee_h_area d.v.s. månadsavgift per kvadratmeter. I övrigt har transformationer av de förklarande variabler som uppvisat fel förväntat tecken utförts genom att lägga till kvadrerade variabler i de regressionsmodeller där problemen uppstått. Det förväntade tecknet på b year är approximativt negativt eftersom det endast tagits med objekt som är byggda innan år 2000 och den absoluta majoriteten av alla objekt i urvalet av områden är byggda på 1950-talet och tidigare. I analysen av det indexerande området Midsommarkransen/Aspudden upptäcktes outliers år 2005. Ett tiotal objekt hade väldigt låga kvadratmeterpriser, så låga som 7-10000 kr/kvm medan de övriga objekten samma år hade kvadratmeterpriser mellan 20-29000 kr/kvm. Objekt på samma adress där de låga priserna var närvarande år 2005 låg i normal prisnivå såväl 2007 som 2010-2013. Det är troligt att anta att en ombildning har skett i de fastigheter där de onormalt låga priserna var närvarande år 2005, problemet löstes genom att utesluta de outliers som orsakade problem ur den data som använts i området. Ett annat problem vid selektion av data till de områden, där analyser utförts, har varit att välja ut den data som önskats med hjälp av kartkoordinater. 10
I vissa fall, exempelvis vid selektion av data i området Midsommarkransen/Aspudden kom objekt från Nybodahöjden i Liljeholmen med i urvalet p.g.a. att dess geografiska närhet. Problemet som uppstod i det här fallet var att det var stora variationer både prismässigt och arkitektoniskt samt att området är beläget på andra sidan av Essingeleden i jämförelse med Midsommarkransen/Aspudden. Även i ett fall som det här har de objekt som legat utanför ramarna av det definierade området plockats bort även i det här fallet, då de gav alldeles för lågt predikterat värde av ett typobjekt. Ett problem som uppstått vid hanteringen av data var att det i vissa fall behövde datan tvättas, d.v.s. att våningsplanet stod skrivet i fel kolumn, information kring hurvida det finns hiss eller inte i fastigheten behövdes korrigeras. Det var oftast inget problem, eftersom information kring fastigheten fanns på objekt med samma adress eller gata. Det var dock relativt tidskrävande att gå igenom flera tusen objekt. 3.1.1 Funktioner och packages i R De funktioner som har använts i regressionsanalysen har varit lm, summary (då det inte funnits hetroskedasticitet), bptest, vif samt en funktion som heter summaryr 1 som ger rätt standardavvikelser och signifikans på de skattade parametrarna när heteroskedasticitet är närvarande. Exempel på hur analysen för de olika områdena finns visat i appendix. De packages som varit nödvändiga för att utföra den analys som krävts i projektet har varit AER (Applied Econometrics with R), datasets, graphics, grdevices, methods, stats och utils. 3.1.2 White s Consistent Variance Estimator Vid faktumet av heteroskedasticitet påverkas standardavvikelserna och signifikansen av de estimerade koefficienterna i. Algebraiskt tas kovariansmatrisen Cov( ˆ) fram på följande sätt[13]. Cov( ˆ) =(X t X) 1 ( nx ê 2 i x t ix i )(X t X) 1 (3.2) I programmet R används White s estimator i filen SummaryR 2 i det fall där heteroskedastisitet är närvarande. i=1 1 För SummaryR kod, se Apendix 2 Se bilaga i Apendix 11
12
Kapitel 4 Analys Utifrån de resultat som har uppkommit vid regressionsanalyserna i R har slutsatser i projektet varit möjliga. Resultaten visas i område för område, tiden före inrättandet av en nybyggnation (2005-2007) samt tiden efter (2010-2013). Determinationskoefficienten R 2 ligger i intervallet [0 1] och antar värdet 1 när alla residualer är lika med noll. I samtliga områden där analysen genomförts har värdena på R 2 legat över 0.8 vilket kan anses ge en god förutsättnng att göra en bra prediktion. 4.1 Solna I regressionsanalysen av området Gamla Filmstaden blev prisförändringen mellan år 2005-2013, 35,2% medan området vi haft som jämförbart index, Råsunda ökade under samma period 60.5% i pris. Det går därför inte att påvisa någon positiv prispåverkan i det här området. Det finns olika tolkningar av det här resultatet, det första är att det faktiskt inte har påverkat priset efter att de nya kvarteren är byggda. Dämpningen av prisutvecklingen jämfört mot index kan bero på att det som tidigare varit ett parkområde nu exploaterats. En annan teori som är mer trolig är att den prispåverkan inom närområdet till Gamla Filmstaden redan börjat ske mellan år 2002-2004 eftersom första etappen: Filmstaden 16, bostadskvarter A, Ingrid Bergmans väg 3-23, byggdes under den här tiden, den sjunde och sista etappen i projektet färdigställdes under år 2009: Filmstaden 20, bostadskvarter E, Edvin Adolphsons väg 2-4, Viktor Sjöströms väg 2-10 [11]. Det är därför troligt att anta följande, för att ha fått ett mer statistiskt säkerställt resultat skulle perioden före nybyggnadsprojektet ha varit innan år 2002, exempelvis mellan 1999-2001, tyvärr har det dataurvalet som har tillhandahållits i projektet inte haft tidigare försäljningsår än 2005 vilket hade behövts för att göra en så god analys som möjligt. Det kan vara så att man 13
innan år 2005 när mätningarna började gick in i en kraftig prisutvecklingsfas som sedan planades ut en aning. 4.1.1 Filmstaden Filmstaden 2005-2007 Variablerna h floor elevator samt h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen, ekvation (3.1) utförts. Ekvationen med transformerade variabler blev således: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 +(b year) 7 + (year nr) 8 +(h floor elevator) 2 9 +(h floor no elevator) 2 10 + (4.1) Studentized Breusch Pagan test BP = 1 0. 5 7 6, d f = 1 0, p value = 0.3915 Figur 3.1.1: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 14
Figur 3.1.2: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.32578 0.06705 0.00990 0.08265 0.27164 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 2.798e+02 2.798 e+01 10.000 < 2e 16 h_area 1.281e 02 2.751 e 03 4.658 9. 4 8 e 06 monthlyfee_h_area 1.884e 03 5.393 e 03 0.349 0.7275 h_rooms 3.967 e 02 5.789 e 02 0.685 0.4947 b_year 1.750e 03 2.897 e 03 0.604 0.5471 h_floor_no_elevator 1.852e 01 1.515 e 01 1.222 0.2245 h_floor_elevator 5.215e 02 3.118 e 02 1.673 0.0974. b_elevator 1.340e 01 1.781 e 01 0.752 0.4535 year_nr 1.480e 01 1.410 e 02 10.497 < 2e 16 I(h_floor_elevator^2) 8.622e 03 4.416 e 03 1.952 0.0536. I(h_floor_no_elevator^2) 3.522e 02 2.649 e 02 1.330 0.1866 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1191 on 104 degrees of freedom Multiple R squared : 0.8552, Adjusted R squared : 0.8412 F statistic : 61.41 on 10 and 104 DF, p value : < 2.2e 16 - De viktigaste kovariaterna i den här regressionen var h area och year nr som hade väldigt hög signifikans, h floor elevator och h floor elevator 2 påverkar även prediktionen med relativt hög signifikans[12]. Estimate är värdet på de skattade koefficienterna ˆi i =1...n, se ekvation (2.7). Std. Error är standardavvikelsen som tas fram genom att ta roten ur diagonalelementen i kovariansmatrisen se ekvation (2.8) 15
Pr(> t ) står för signifikansen, där ett lägre värde ger hög signifikans. VIF v a l u e s 17.213306 h_area 2.418229 monthlyfee_h_area 14.910277 h_rooms 1.405441 b_year 60.355157 h_floor_no_elevator 22.235252 h_floor_elevator 8.631195 b_elevator 1.052268 year_nr 20.621884 h_floor_elevator^2 35.086636 h_floor_no_elevator^2 - Eftersom h area och h rooms har tämligen höga VIF-värden kan det antas att de är korrelerade en aning, det hade gått att transformera dessa variabler, exempelvis genom att kalla en variabel h area rooms dvs. kvadratmeter per rum. Men eftersom det inte var något väldigt stort värde, som VIF-värdena antog samt att grundekvationen ekvation (3.1) inte skulle avvika mellan de olika områdena bedömdes den här transformationen inte vara av betydande art. Att h floor elevator och h floor no elevator har höga VIF värden beror på att de även lagts till samma kvadrerade variabler i modellem p.g.a. att fel förväntat tecken. Preds h_area monthlyfee_h_area h_rooms 55 50.90909 2 b_year h_floor_elevator h_floor_no_elevator 1949 3 0 b_elevator year_nr 1 2005 > exp( predict (M2, newdata=preds )) 1412307 Filmstaden 2010-2013 Variablerna monthlyf ee h area samt year nr visade fel förväntat tecken efter att en regression med grundekvationen ekvation (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: 16
log t price = 0 +(h area) 1 +(monthlfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 + (b year) 7 +(year nr) 8 +(monthlyfee h area) 2 9+(year nr) 2 10+ (4.2) Studentized Breusch Pagan test BP = 3. 1 3 1 4, d f = 1 0, p value = 0.9782 Figur 3.1.3: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.1.4: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.59455 0.05736 0.00887 0.06486 0.24306 17
Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.771e+04 4.339 e+04 0.869 0.386197 h_area 1.294e 02 1.486 e 03 8.710 4. 6 2 e 15 monthlyfee_h_area 8.648e 03 2.258 e 02 0.383 0.702285 h_rooms 1.132 e 02 3.021 e 02 0.375 0.708370 b_year 1.966e 04 1.337 e 03 0.147 0.883239 h_floor_no_elevator 2.912e 02 3.863 e 02 0.754 0.452192 h_floor_elevator 1.760e 02 4.655 e 03 3.781 0.000223 b_elevator 1.193e 01 9.324 e 02 1.279 0.202735 year_nr 3.753 e+01 4.315 e+01 0.870 0.385853 I(monthlyfee_h_area^2) 3.322e 05 2.260 e 04 0.147 0.883347 I(year_nr^2) 9.334e 03 1.073 e 02 0.870 0.385675 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.09831 on 153 degrees of freedom Multiple R squared : 0.8335, Adjusted R squared : 0.8226 F statistic : 76.6 on 10 and 153 DF, p value : < 2.2e 16 De viktigaste kovariaterna i den här regressionen var h area och h floor elevator som hade väldigt hög signifikans. VIF v a l u e s 9.356043e+00 1.332918e+02 8.755686e+00 1.095282e+00 5.809946e+00 1.268607e+00 6.027183e+00 2.420047e+07 1.347126e+02 2.420116e+07 h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr monthlyfee_h_area^2 year_nr^2 Eftersom h area och h rooms har tämligen höga VIF-värden kan det antas att de är korrelerade en aning, det hade gått att transformera dessa variabler, exempelvis genom att kalla en variabel h area rooms dvs. kvadratmeter per rum. Men eftersom det inte var något väldigt stort värde, som VIF-värdena antog samt att grundekvationen ekvation (3.1) inte skulle avvika mellan de olika områdena bedömdes den här transformationen inte vara av betydande art. Att h floor elevator och h floor no elevator har höga VIF värden beror på att de även lagts till samma kvadrerade variabler i modellem p.g.a. att fel förväntat tecken. Preds h_area monthlyfee_h_area h_rooms 55 50.90909 2 b_year h_floor_elevator h_floor_no_elevator 1949 3 0 b_elevator year_nr 1 2013 > exp( predict (M3, newdata=preds )) 18
1909465 4.1.2 Resultat Den procentuella ökningen för Filmstaden mellan år 2005-2013 blev således =1.3520 35.2% ökning. Prediktion 2013 Prediktion 2005 = 1909465 1412307 4.1.3 Råsunda Råsunda 2005-2007 I modellen för den här regressionen behövdes ingen ytterligare transformation av ekvation (3.1) utföras. log t price = 0 +(h area) 1 +(monthlfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 +(b year) 7 +(year nr) 8 + (4.3) Studentized Breusch Pagan test BP = 3 2. 2 0 2 9, d f = 8, p value = 8.566e 05 Figur 3.1.5: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 19
Figur 3.1.6: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.48036 0.08793 0.00524 0.10980 0.33063 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.333e+02 2.704 e+01 12.327 < 2e 16 h_area 7.399e 03 1.651 e 03 4.482 1. 2 4 e 05 monthlyfee_h_area 4.811e 03 1.263 e 03 3.809 0.000186 h_rooms 1.507 e 01 3.389 e 02 4.447 1. 4 4 e 05 b_year 2.397e 03 5.610 e 04 4.272 2.99e 05 h_floor_no_elevator 6.019e 02 5.046 e 02 1.193 0.234378 h_floor_elevator 2.476e 02 8.056 e 03 3.073 0.002413 b_elevator 4.548e 02 6.367 e 02 0.714 0.475938 year_nr 1.754e 01 1.348 e 02 13.017 < 2e 16 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1569 on 200 degrees of freedom Multiple R squared : 0.8701, Adjusted R squared : 0.865 F statistic : 204.4 on 8 and 200 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen var h area, year nr, monthlyf ee h area, h rooms och b year som hade väldigt hög signifikans. VIF v a l u e s 7.056080 h_area 1.410149 monthlyfee_h_area 6.515225 h_rooms 1.089565 b_year 31.937586 h_floor_no_elevator 1.159969 h_floor_elevator 32.280267 b_elevator 1.024951 year_nr 20
Ovan ser man att h floor no elevator och b elevator har tämligen höga VIF-värden antas det att de är korrelerade. Preds h_area monthlyfee_h_area h_rooms 60 43.33333 2 b_year h_floor_elevator h_floor_no_elevator 1929 2 0 b_elevator year_nr 1 2005 > exp( predict (M1, newdata=preds )) 1536457 Råsunda 2010-2013 I modellen för den här regressionen behövdes ingen ytterligare transformation av ekvation (3.1) utföras. log t price = 0 +(h area) 1 +(monthlfee h area) 2 +(h rooms) 3 + (h floor no elevator 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 + (4.4) Studentized Breusch Pagan test BP = 3 2. 2 0 2 9, d f = 8, p value = 8.566e 05 Figur 3.1.7: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 21
Figur 3.1.8: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.62515 0.07043 0.00965 0.07095 0.29547 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 5.509e+01 1.477 e+01 3.729 0.000228 h_area 6.131e 03 1.300 e 03 4.717 3. 6 3 e 06 monthlyfee_h_area 5.044e 03 8.527 e 04 5.915 8.81e 09 h_rooms 1.762 e 01 2.217 e 02 7.945 3. 6 5 e 14 b_year 1.685e 03 5.564 e 04 3.028 0.002665 h_floor_no_elevator 1.474e 01 4.556 e 02 3.235 0.001348 h_floor_elevator 2.721e 02 5.257 e 03 5.176 4. 0 9 e 07 b_elevator 1.922e 01 6.472 e 02 2.970 0.003209 year_nr 3.592e 02 7.307 e 03 4.916 1. 4 4 e 06 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1162 on 309 degrees of freedom Multiple R squared : 0.9067, Adjusted R squared : 0.9043 F statistic : 223.2 on 8 and 309 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har samtliga kovariater en relativt hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s 7.459467 h_area 1.291435 monthlyfee_h_area 7.046952 h_rooms 1.085042 b_year 9.308666 h_floor_no_elevator 1.089396 h_floor_elevator 9.314573 b_elevator 1.012657 year_nr Alla VIF- värden i den här regressionen är under 10 vilket tyder på att multikollinearitetet inte är så skadligt. 22
Preds h_area monthlyfee_h_area h_rooms 60 43.33333 2 b_year h_floor_elevator h_floor_no_elevator 1929 2 0 b_elevator year_nr 1 2013 > exp( predict (M1, newdata=preds )) 2466001 4.1.4 Resultat Den procentuella ökningen för Råsunda mellan år 2005-2013 blev således =1.60499 60.5% ökning. Prediktion 2013 Prediktion 2005 = 2466001 1536457 4.2 Kungsholmen I närområdet kring Lindhagensterrassen på Kungsholmen som byggdes mellan åren 2005-2010, har områdena Thorildsplan och Stadshagen agerat som närområde medan Kungsholmen innanför tullarna verkat som indexerande område. I närområdet har den procentuella prisökningen mellan åren 2005-2013 varit 73,8% medan i det indexerande området skett en 61 procentig prisökning under samma period. Det finns sådeles en stor chans att påvisa en positiv prisutveckling tack vare nybyggnadsprojektet Lindhagensterrassen. Det är dock viktigt att prisutvecklingen kan bero på andra faktorer än just att ett nybyggnadsprojekt har byggts, det kan även vara så att innerstan växer utåt och områden precis utanför tullarna närmar sig en prisnivå som objekt innanför tullarna. Det här eftersom Stockholms popularitet ökar med årlig basis och efterfrågan är större än tillgången på centralt belägna bostadsobjekt. 4.2.1 Lindhagen Lindhagen 2005-2007 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen, ekvationen (3.1) utförts. Ekvationen med trans- 23
formerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator 6 (b year) 7 +(year nr) 8 +(h floor no elevator) 2 9 + (4.5) R-data Studentized Breusch Pagan test BP = 2 3. 1 4 5 6, d f = 9, p value = 0.005877 Figur 3.2.1: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.2.2: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.84224 0.07750 0.00209 0.07660 0.61541 24
Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.643e+02 2.125 e+01 17.147 < 2e 16 h_area 1.469e 02 1.084 e 03 13.552 < 2e 16 monthlyfee_h_area 7.710e 03 7.960 e 04 9.686 < 2e 16 h_rooms 1.724 e 02 2.117 e 02 0.814 0.416090 b_year 2.645e 03 6.503 e 04 4.067 5.82e 05 h_floor_elevator 2.092e 02 6.244 e 03 3.350 0.000891 h_floor_no_elevator 5.265e 02 2.142 e 02 2.458 0.014414 b_elevator 5.268e 02 3.890 e 02 1.354 0.176472 year_nr 1.911e 01 1.055 e 02 18.110 < 2e 16 I(h_floor_no_elevator^2) 9.147e 03 3.040 e 03 3.009 0.002804 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1491 on 367 degrees of freedom Multiple R squared : 0.877, Adjusted R squared : 0.874 F statistic : 272.5 on 9 and 367 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen var h area, year nr, monthlyf ee h area, h f loor elevator och b year som hade högst signifikans. VIF v a l u e s 6.299071 h_area 2.213485 monthlyfee_h_area 5.252839 h_rooms 1.695155 b_year 33.294897 h_floor_no_elevator 3.191995 h_floor_elevator 9.946601 b_elevator 1.039617 year_nr 15.153055 h_floor_no_elevator^2 Att h floor no elevator och (h floor no elevator) 2 har höga VIF värden beror på att beror på att man valt att kvadrera termen på grund av fel förväntat tecken för h floor no elevator. Preds h_area monthlyfee_h_area h_rooms 48 54 2 b_year h_floor_elevator h_floor_no_elevator 1942 3 0 b_elevator year_nr 1 2005 > exp( predict (m2, newdata=preds )) 1395090. 25
Lindhagen 2010-2013 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.6) R-data Studentized Breusch Pagan test BP = 2 8. 2 9 4 9, d f = 9, p value = 0.0008514 Figur 3.2.3: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 26
Figur 3.2.4: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.33962 0.06122 0.00452 0.05692 0.53682 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 4.816e+01 9.368 e+00 5.141 3.99e 07 h_area 1.525e 02 5.942 e 04 25.669 < 2e 16 monthlyfee_h_area 1.378e 03 6.609 e 04 2.085 0.0376 h_rooms 1.313 e 02 1.223 e 02 1.074 0.2835 b_year 2.053e 03 3.560 e 04 5.767 1.45e 08 h_floor_elevator 9.728e 03 3.354 e 03 2.900 0.0039 h_floor_no_elevator 3.229e 02 2.858 e 02 1.130 0.2592 b_elevator 2.755e 02 3.590 e 02 0.767 0.4432 year_nr 3.284e 02 4.657 e 03 7.052 6. 2 2 e 12 I(h_floor_no_elevator^2) 6.336e 03 5.512 e 03 1.149 0.2510 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.0995 on 477 degrees of freedom Multiple R squared : 0.9094, Adjusted R squared : 0.9076 F statistic : 346.9 on 9 and 477 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen var h area, year nr, b year, monthlyf ee h area,h f loor elevator och b year som har väldigt hög signifikans. VIF v a l u e s 5.767597 h_area 1.521171 monthlyfee_h_area 5.421467 h_rooms 1.914372 b_year 92.463027 h_floor_no_elevator 2.640476 h_floor_elevator 9.946601 b_elevator 1.024555 year_nr 45.490780 h_floor_no_elevator^2 Här har h floor no elevator och (h floor no elevator) 2 höga VIF värden, det beror på att de även lagts till kvadrerade term i modellen pga. fel förväntat tecken. Preds h_area monthlyfee_h_area h_rooms 48 54 2 b_year h_floor_elevator h_floor_no_elevator 1942 3 0 b_elevator year_nr 1 2013 > exp( predict (m2, newdata=preds )) 2424826 27
4.2.2 Resultat Den procentuella ökningen för Lindhagen mellan år 2005-2013 blev således =1.73811 73.8% ökning. Prediktion 2013 Prediktion 2005 = 2424826 1395090 4.2.3 Kungsholmen innanför tullarna Kungsholmen 2005-2007 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.7) R-data Studentized Breusch Pagan test BP = 3 4 2. 5 2 6 9, d f = 9, p value < 2.2e 16 Figur 3.2.5: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 28
Figur 3.2.6: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 1.04926 0.09948 0.00319 0.10241 0.70283 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.010e+02 8.617 e+00 34.928 < 2e 16 h_area 1.069e 02 3.976 e 04 26.879 < 2e 16 monthlyfee_h_area 3.792e 03 2.881 e 04 13.165 < 2e 16 h_rooms 8.341 e 02 8.665 e 03 9.626 < 2e 16 b_year 7.981e 04 1.412 e 04 5.654 1.72e 08 h_floor_elevator 2.474e 02 2.370 e 03 10.441 < 2e 16 h_floor_no_elevator 6.179e 02 2.860 e 02 2.161 0.0308 b_elevator 9.449e 02 3.797 e 02 2.488 0.0129 year_nr 1.578e 01 4.293 e 03 36.759 < 2e 16 I(h_floor_no_elevator^2) 1.451e 02 5.010 e 03 2.896 0.0038 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1687 on 2851 degrees of freedom Multiple R squared : 0.864, Adjusted R squared : 0.8636 F statistic : 882.9 on 9 and 2851 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har samtliga kovariater en relativt hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s 5.011186 h_area 1.152106 monthlyfee_h_area 4.916087 h_rooms 1.145418 b_year 78.907366 h_floor_no_elevator 1.545307 h_floor_elevator 22.305147 b_elevator 1.006241 year_nr 28.379571 h_floor_no_elevator^2 h floor no elevator och (h floor no elevator) 2 har höga VIF värden beror på att beror på att man valt att kvadrera termen på grund av fel 29
förväntat tecken för h floor no elevator. Preds h_area monthlyfee_h_area h_rooms 59 46 2 b_year h_floor_elevator h_floor_no_elevator 1929 3 0 b_elevator year_nr 1 2005 > exp( predict (m2, newdata=preds )) 2033603 Kungsholmen 2010-2013 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.8) R-data Studentized Breusch Pagan test BP = 9 4. 7 4 7 9, d f = 9, p value < 2.2e 16 Figur 3.2.7: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 30
FIgur 3.2.8: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 2.28976 0.07673 0.00422 0.08535 0.63426 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 5.261e+01 5.046 e+00 10.426 <2e 16 h_area 1.086e 02 3.713 e 04 29.238 <2e 16 monthlyfee_h_area 2.516e 03 1.969 e 04 12.779 <2e 16 h_rooms 8.220 e 02 9.216 e 03 8.919 <2e 16 b_year 1.280e 03 1.086 e 04 11.788 <2e 16 h_floor_elevator 1.845e 02 1.752 e 03 10.525 <2e 16 h_floor_no_elevator 4.999e 02 3.282 e 02 1.523 0.1278 b_elevator 7.107e 02 3.981 e 02 1.785 0.0743. year_nr 3.441e 02 2.506 e 03 13.734 <2e 16 I(h_floor_no_elevator^2) 4.767e 03 6.123 e 03 0.779 0.4363 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.148 on 3735 degrees of freedom Multiple R squared : 0.8787, Adjusted R squared : 0.8784 F statistic : 1148 on 9 and 3735 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen är h area, monthlyf ee h area, h rooms, b year, year nr och h floor elevator som hade väldigt hög signifikans. VIF v a l u e s 5.358032 h_area 1.173201 monthlyfee_h_area 5.177722 h_rooms 1.136189 b_year 72.306854 h_floor_no_elevator 1.466991 h_floor_elevator 20.277095 b_elevator 1.010713 year_nr 31
26.238655 h_floor_no_elevator^2 Här har h floor no elevator och (h floor no elevator) 2 höga VIF värden, det beror på att man valt att kvadrera termen på grund av fel förväntat tecken för h floor no elevator, även b elevatorhar hög VIF-värde. Preds h_area monthlyfee_h_area h_rooms 59 46 2 b_year h_floor_elevator h_floor_no_elevator 1929 3 0 b_elevator year_nr 1 2013 > exp( predict (m2, newdata=preds )) 3275556 4.2.4 Resultat Den procentuella ökningen för Kungsholmen innanför tullarna mellan år 2005-2013 blev således Prediktion 2013 Prediktion 2005 = 3275556 2033603 =1.61071 61.1% ökning. 4.3 Hägersten Området kring Telefonplan är väldigt expansivt och flertalet nybyggnadsprojekt har påbörjats de senaste åren, ett av de största, Kv. Tvålflingan blev färdigställt år 2009 så analysen kretsar kring denna. Som indexerande område har Midsommarkransen/Aspudden verkat under den här analysen. Prisutvecklingen mellan åren 2005-2013 har varit 83,9% i området kring Telefonplan, medan prisutvecklingen i Midsommarkransen/Aspudden har under samma tidsperiod varit 46,7%. Här finns en tydlig indikation på att nybyggnadsprojekten har haft en väldigt positiv inverkan på prisbilden. 4.3.1 Telefonplan Telefonplan 2005-2007 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 + R-data (h rooms) 3 +(b year) 4 +(h floor no elevator) 5 + (year nr) 6 +(h floor no elevator) 2 7 + (4.9) 32
Studentized Breusch Pagan test BP = 2 3. 0 3 1 9, d f = 7, p value = 0.001683 Figur 3.3.1: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.2: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.45750 0.07486 0.00540 0.07419 0.25557 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.643e+02 1.834 e+01 19.865 < 2e 16 h_area 1.223e 02 2.376 e 03 5.150 6. 4 8 e 07 monthlyfee_h_area 1.992e 03 2.447 e 03 0.814 0.4168 h_rooms 4.279 e 02 3.472 e 02 1.232 0.2193 b_year 1.458e 03 2.886 e 03 0.505 0.6141 h_floor_no_elevator 1.258e 01 6.223 e 02 2.022 0.0446 year_nr 1.897e 01 8.524 e 03 22.257 < 2e 16 I(h_floor_no_elevator^2) 2.686e 02 1.565 e 02 1.716 0.0877. Signif. codes: 0 0.001 0.01 0.05. 0.1 1 33
Residual standard error : 0.1096 on 190 degrees of freedom Multiple R squared : 0.8394, Adjusted R squared : 0.8335 F statistic : 182 on 7 and 190 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 I den här regressionen har h area och year nr en hög signifikans. VIF v a l u e s 6.557846 h_area 2.288254 monthlyfee_h_area 4.942730 h_rooms 2.060182 b_year 31.093554 h_floor_no_elevator 1.067864 year_nr 31.015038 h_floor_no_elevator^2 Ovan ser man att h floor no elevator och (h floor no elevator) 2 har höga VIF-värden och det antas att de är korrelerade. Preds h_area monthlyfee_h_area h_rooms 50 52 2 b_year h_floor_no_elevator year_nr 1935 2 2005 > exp( predict (M2, newdata=preds )) 1180726 Telefonplan 2010-2013 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.10) R-data Studentized Breusch Pagan test BP = 2 3. 1 4 7 8, d f = 9, p value = 0.005873 34
Figur 3.3.3: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.4: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.98791 0.06652 0.00250 0.06835 0.37283 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 7.047e+01 1.516 e+01 4.650 4.74e 06 h_area 8.887e 03 1.672 e 03 5.316 1. 9 1 e 07 monthlyfee_h_area 8.700e 03 1.276 e 03 6.819 4.16e 11 h_rooms 7.122 e 02 2.666 e 02 2.671 0.00792 b_year 1.509e 03 9.461 e 04 1.595 0.11171 h_floor_no_elevator 5.691e 02 4.580 e 02 1.243 0.21485 h_floor_elevator 3.461e 02 1.639 e 02 2.112 0.03540 b_elevator 3.590e 02 6.142 e 02 0.585 0.55922 year_nr 4.359e 02 7.650 e 03 5.698 2. 6 2 e 08 I(h_floor_no_elevator^2) 9.561e 03 1.090 e 02 0.877 0.38124 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1146 on 343 degrees of freedom 35
Multiple R squared : 0.8242, Adjusted R squared : 0.8196 F statistic : 194.2 on 9 and 343 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen är h area, year nr, monthlyf ee h area, h rooms och h floor elevator som har väldigt hög signifikans. VIF v a l u e s 9.284599 h_area 1.505154 monthlyfee_h_area 6.515763 h_rooms 3.279697 b_year 98.856086 h_floor_no_elevator 4.623145 h_floor_elevator 15.573655 b_elevator 1.041117 year_nr 62.985231 h_floor_no_elevator^2 Ovan ser man att h floor no elevator och (h floor no elevator) 2 har höga VIF-värden och det antas att de är korrelerade. Även b elevator har VIF-värde över 10. Preds h_area monthlyfee_h_area h_rooms 50 52 2 b_year h_floor_elevator h_floor_no_elevator 1935 2 0 b_elevator year_nr 1 2013 > exp( predict (M2, newdata=preds )) 2171149 4.3.2 Resultat Den procentuella ökningen för Telefonplan mellan år 2005-2013 blev således =1.8388 83.9% ökning. Prediktion 2013 Prediktion 2005 = 2171149 1180726 4.3.3 Midsommarkransen och Aspudden Midsommarkrans/Aspudden 2005-2007 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade 36
variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.11) Studentized Breusch Pagan test BP = 2 0. 9 9 2 4, d f = 9, p value = 0.01268 FIgur 3.3.5: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.6: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 0.34108 0.09673 0.00010 0.08054 0.36667 37
Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 4.711e+02 3.584 e+01 13.146 < 2e 16 h_area 1.070e 02 1.502 e 03 7.121 2. 3 2 e 10 monthlyfee_h_area 7.651e 03 1.156 e 03 6.620 2.35e 09 h_rooms 1.009 e 01 3.256 e 02 3.100 0.002570 b_year 4.142e 03 9.405 e 04 4.404 2.86e 05 h_floor_no_elevator 4.574e 01 1.345 e 01 3.400 0.000997 h_floor_elevator 3.401e 01 9.733 e 02 3.494 0.000733 b_elevator 1.914e 02 4.483 e 02 0.427 0.670342 year_nr 2.455e 01 1.805 e 02 13.605 < 2e 16 I(h_floor_no_elevator^2) 3.018e 03 1.134 e 03 2.661 0.009198 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1365 on 92 degrees of freedom Multiple R squared : 0.9022, Adjusted R squared : 0.8926 F statistic : 131.2 on 9 and 92 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har nästan samtliga kovariater en relativ hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s 5.699208 h_area 1.331705 monthlyfee_h_area 5.236059 h_rooms 1.306221 b_year 584.785880 h_floor_no_elevator 472.906355 h_floor_elevator 1.058292 b_elevator 1.140281 year_nr 12.190242 h_floor_no_elevator^2 Väldigt höga VIF värden på h floor elevator och h floor no elevator. Preds h_area monthlyfee_h_area h_rooms 50 52 2 b_year h_floor_elevator h_floor_no_elevator 1935 2 0 b_elevator year_nr 1 2005 > exp( predict (M4, newdata=preds )) 1554490 Midsommar/Aspudden 2010-2013 Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade 38
variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.12) R-data Studentized Breusch Pagan test BP = 2 3. 4 8 8 5, d f = 9, p value = 0.005188 Figur 3.3.7: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.8: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 39
0.32634 0.06074 0.00388 0.05788 0.29408 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 8.363e+01 1.793 e+01 4.665 7.29e 06 h_area 1.013e 02 8.557 e 04 11.840 < 2e 16 monthlyfee_h_area 2.297e 03 7.000 e 04 3.281 0.00131 h_rooms 9.828 e 02 1.984 e 02 4.954 2. 1 2 e 06 b_year 3.308e 03 6.802 e 04 4.864 3.14e 06 h_floor_no_elevator 8.563e 02 4.696 e 02 1.824 0.07041. h_floor_elevator 5.128e 02 2.882 e 02 1.779 0.07743. b_elevator 1.565e 02 7.427 e 02 0.211 0.83342 year_nr 5.165e 02 8.958 e 03 5.766 5. 2 2 e 08 I(h_floor_no_elevator^2) 1.601e 02 1.054 e 02 1.519 0.13098 Signif. codes: 0 0.001 0.01 0.05. 0.1 1 Residual standard error : 0.1046 on 136 degrees of freedom Multiple R squared : 0.9032, Adjusted R squared : 0.8968 F statistic : 106.6 on 9 and 136 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har nästan samtliga kovariater en relativ hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s 4.852772 h_area 1.265321 monthlyfee_h_area 4.491775 h_rooms 1.107631 b_year 48.185629 h_floor_no_elevator 7.999702 h_floor_elevator 13.459659 b_elevator 1.139868 year_nr 30.886152 h_floor_no_elevator^2 Ovan ser man att h floor no elevator och (h floor no elevator) 2 har höga VIF-värden och det antas att de är korrelerade. Även b elevator har VIF-värde över 10. Preds h_area monthlyfee_h_area h_rooms 50 52 2 b_year h_floor_elevator h_floor_no_elevator 1935 2 0 b_elevator year_nr 1 2013 > exp( predict (M4, newdata=preds )) 2276049 40
4.3.4 Resultat Den procentuella ökningen för Midsommarkransen/Aspudden mellan år 2005-2013 blev således Prediktion 2013 Prediktion 2005 = 2276049 1554490 =1.4642 46.4% ökning. 41
42
Kapitel 5 Diskussion 5.1 Utvecklingsmöjligheter Studien skall ses som en pilotstudie där det visat sig finnas indikation på positiv prispåverkan på närområdet vid ett nybyggnadsprojekt. Avsaknaden av liknande studier i ämnet gör lösningsmetoden än mer intressant. I två av de tre områden (Lindhagensterrassen och Telefonplan) där undersökningen genomförts har resultatet visat att så varit fallet, i det tredje (Filmstaden i Solna) kunde ingen positiv prispåverkan påvisas. I Filmstadens fall fanns många bra objekt att analysera men tidsspannet på datan (2005-2013) började troligtvis för sent. För att få högre statistisk signifikans i rapporten och dra fördjupade slutsatser hade fler områden behövts undersökas samt att försäljningsdatan hade behövt täcka ett längre tidsspann än år 2005-2013. Fler städer än Stockholm skulle varit intressant att bearbeta. Metoden som använts i undersökningen kan användas för om intresse finns i en större studie som skulle kunna vara rikstäckande. Den viktigaste aspekten har varit att bygga sofistikerade modeller ut efter konstens alla regler. 5.2 Val av programspråk Det har varit väldigt smidigt att arbeta med modelleringen i R i synnerhet efter att RConsole installerats, en nackdel har dock varit att R har svårt att hantera stora datamängder (filer med mer än 30 000 rader) varvid Excel var till stor hjälp vid selektion av data till de olika områdena som har analyserats. Vi rekommenderar ändå alla som är intresserade av att göra statistiska analyser att testa på R, dels för att det är väldigt användarvänligt och även freeware vilket implicerar att man alltid kommer ha tillgång till programmet. 43
Det är dock viktigt att poängtera att för att utföra olika operationer i programmet behövs olika packages installeras, det här för att ingen onödig datakapacitet skall behövas tas upp i minnet, det kan till en början verka något krångligt men eftersom programmet är så snabbt och effektivt vägs fördelarna lätt upp emot nackdelarna. 44
Kapitel 6 Referenser [1] Chalmers Tekniska Högskolan kurs Matematisk statistik för K (TMA073) den 20/4 2013 http://www.math.chalmers.se/stat/grundutb/cth/tma073/0910/kap11.pdf [2] http://sv.wikipedia.org/wiki/regressionsanalys den 18/4 2013 [3] Westerlund, Joakim Introduktion till ekonometri LUND, studentlitteratur; 2005 [4] http://en.wikipedia.org/wiki/bias_(statistics) den 22/4 2013 [5] Washington University in St. Louis. Lecturer Mallory Leung den 19/4 http://artsci.wustl.edu/~mleung/ch12.pdf [6] Queen s University, Instructor: Mike Abbott Lecture notes http://qed.econ.queensu.ca/faculty/abbott/econ452/452note11.pdf [7] Gary King and Margaret Roberts How Robust Standard Errors Expose Methodological Problems They Do Not Fix den 29/4 2013 http://gking.harvard.edu/files/robust.pdf [8] PIM5-projekt av Maria Törnblom, Örebro 2011-03-23, den 3/5 2013 https://sites.google.com/site/excelibiologiundervisningen/statistisk-analys/ trendlinje-och-r-vaerde [9] http://en.wikipedia.org/wiki/variance_inflation_factor den 22/4 2013 [10] Peter Kennedy A guide to econometrics Edition 6, Förlag: Wiley- Blackwell, Utgiven: 200802 45
[11] SOLNA STAD den 26/2 2013 http://www.solna.se/sv/stadsbyggnad-trafik/arkitektur-kulturmiljoer/ arkitektur-i-solna/rasunda/ny-bebyggelse-i-filmstaden/ [12] Karin Dahmström Från datainsamling till rapport - att göra en statistisk undersökning upplaga 5, Förlag: Studentlitteratur, Utgiven: 201101, ISBN13: 9789144060279 [13] Harald Lang Tropics on Applied Mathematical Statistics july 2013, version 0.93 [14] Prediktion den 8/5 2013 http://sv.wikipedia.org/wiki/prediktion [15] Multikollinearitet den 22/4 2013 http://en.wikipedia.org/wiki/multicollinearity Programvara The R Project for Statistical Computing- Version 3.0.1 R is a free software environment for statistical computing and graphics http://www.r-project.org Microsoft Exel- Kalkylbladsprogram från Microsoft Corporation http://office.microsoft.com/sv-se/excel/ 46
Kapitel 7 Appendix 7.1 R-kod ## 3 0 0m f i l m s t a d e n b e f o r e M2 < lm( log_t_price~h_area + monthlyfee_h_area + h_rooms + b_year + h_floor_no_elevator + h_floor_elevator + b_elevator + year_nr + I(h_floor_elevator^2) +I(h_floor_no_elevator^2)) summary(m2) bptest(m2) vif(m2) preds < data. frame(h_area=55, monthlyfee_h_area=2800/55, h_rooms=2, b_year=1949, h_floor_elevator=3, h_floor_no_elevator=0, b_elevator=1, year_nr=2005) cat("the predicted value of an apartment in filmstaden year 2005, with indata preds") exp( predict (M2, newdata=preds )) Koden nedan är med kommandot ## R å s u n d a b e f o r e, l o a d R a s u n d a _ b e f o r e. RData b e f o r e u s i n g commands summary(m1) bptest(m1) summaryr. lm (M1, type=c (" hc0 " ) ) vif(m1) preds < data. frame(h_area=60, monthlyfee_h_area=2600/60, h_rooms=2, b_year=1935, h_floor_elevator=2, h_floor_no_elevator=0, b_elevator=1, year_nr=2005) preds cat("the predicted value of an apartment in Råsunda year 2005, with indata preds") exp( predict (M1, newdata=preds )) 47
Author : John Fox Source : http :// r.789695.n4. nabble.com/r extend summary lm for hccm td815004. html Adapted by Tony Cookson. Only Change Made: Changed the name of the function ( unwisely maybe) to summaryr from summaryhccm.lm. I also changed the spelling of consistent summaryr. lm < function(model, type=c("hc3", "hc0", "hc1", "hc2", "hc4"),...){ } if (! require(car)) stop("required car package is missing.") type < match. arg ( type ) V< hccm( model, type=type ) sumry < summary( model ) table < coef(sumry) table [,2] < sqrt(diag(v)) table [,3] < table [,1]/ table [,2] table [,4] < 2 pt(abs( table [,3]), df. residual (model), lower. tail=false) sumry$coefficients < table p < nrow( table ) hyp < cbind (0, diag(p 1)) sumry$fstatistic [1] < linearhypothesis(model, hyp, white. adjust=type)[2,"f"] print(sumry) cat("note: Heteroskedasticity consistent standard errors using White adjustment", type, "\n") 7.2 Figurer Figur 6.2.1: Området Filmstaden och Råsunda i Solna stad. 48
Figur 6.2.2: Området Lindhagen och Kungsholmen innanför tullarna i stadstelsområde Kungsholmen. Figur 6.2.3: Området Telefonplan och Midsommarkransen/Aspudden i stadsdelen Hägersten. 49