Regressionsanalys Mats Wilhelmsson matsw@infra.kth.se 08-790 9 5 KTH Mats Wilhelmsson Tekn. Doktor, 000 Traffic Noise and Property Values Docent i bygg- och fastighetsekonomi KTH, Inst. för Fastigheter och Byggande Enhetschef för bygg- och fastighetsekonomi Forskning Värdepåverkande attribut Högskolor/universitet och ekonomisk tillväxt Byggandet och dess bestämningsfaktorer Priserna inom en region Varför skiljer sig priserna åt inom en region? Dvs vad är det som förklarar prisvariationen vid nyttjandet av tvärsnittsdata? Värdepåverkande egenskaper Fastigheten Yta, kvalitet, ålder Området Positiva och negativa externa effekter Segmenterad marknad Relationen mellan pris och fastighetens värdepåverkande egenskaper skattas mha den sk hedoniska metodiken. 3
Den hedoniska prisekvationen Pr is = α + βf + βo + β3t + ε Fastighetsknutna egenskaper (F) Områdesknutna egenskaper (O) Tidsberoende egenskaper (T) 4 Stockholm stad, 000-0 Unit Average Standard deviation Maximum Minimum Price (P) SEK,663,85,3,84 4,000,000 640,000 Living area (LA) Square meters 9 44 96 35 Quality (Q) Index 7 6 54 7 Age (A) Year 53 8 7 Age > 60 year Binary 46% Lot size (LS) Square meters 737 3 4,33 88 Other area (OA) Square meters 6 3 7 0 Distance (D) Meters from 8,65,688 6,66 4,46 CBD Sea view (SV) Binary % Q 000 Binary 6% Q 000 Binary 0% Q3 000 Binary 9% Q4 000 Binary 0% Q 00 Binary 7% Q 00 Binary 7% Brännkyrka Binary 6% Bromma Binary 4% Enskede Binary 6% Essinge Binary 3% Farsta Binary 9% Hägersten Binary 4% Hässelby Binary % Skärholmen Binary % Skarpnäck Binary 4% Spånga Binary % Vällingby Binary 4% Vantör Binary 4% Västerled Binary 4% 5 Estimeringar (exempel) Koeff. t-värde Bostadsyta.53.3 Biyta.0 3.5 Ålder -.06-3. Ålder (>60).85 0.6 Sjönära.330 5. Tomtareal.37 5.3 Std.poäng.67 6.9 Avst. CBD -.44-9.7 Q 000 -.3-5.3 Q 000 -.05 -.6 Q3 000.00.8 Q4 000.09 3.8 Q 00.09 3.7 Ökar bostadsytan med % så ökar priset med 0,5% Sjöutsikt ökar priset med upp till 30% Ökar tomtstorleken med % ökar priset med 0,% Ökar avståndet från city med % så sjunker priset med 0,4% Ca 65 % av prisvariationen kan förklaras av modellen 6
Pris och avstånd från CBD 0% -0% 50 750 550 7750 050 750 550 Avstånd (meter) -0% -30% Västerort -40% -50% -60% Söderort -70% -80% -90% Priseffekt (procent) 7 Fler attribut. Antal rum Renoveringsbehov Inre/yttre Byte av vitvaror/tvätt/el Dränering av grund Kabel-tv,bredband,Centraldammsugare Garage, bastu, bad, bubbelbad, pool, sjöutsikt Kakelugn/öppen spis 3-glasfönster, snålspolande toaletter/blandare Vatten/fuktskadat Fasad/tak Ventilationssystem Värmesystem Produktion/Distribution Närhet till Allm. Kommunikationer Service Betyg av område Störning av Väg, tåg, flyg, kraftledningar 8 Betalningsviljan Betalningsviljan för olika attribut (kronor) 800000 700000 600000 500000 400000 300000 00000 00000 0 ytterligare ett rum ej biltrafik kakelugn ej direktverkande el sjöutsikt 9 3
Betalningsviljan Betalningsvilja för ytterligare en kvm (kronor) 4000 4000 000 0000 WTP WTP u.inter 000 0000 8000 8000 6000 6000 4000 4000 000 000 0 3 4 5 6 7 0 Antal rum 0 Underhåll av fastigheten Priseffekt (%) 40 30 0 priseffekt priseffekt (inre renoveringsbehov) priseffekt (yttre och inre renoveringsbehov) 0 0 3 4 5 6 7 8 9 Ålder (år) -0-0 -30-40 Betyg av områden Toppen Ålsten (7,83) Höglandet Smedslätten Stora Mossen Södra Ängby Bagarmossen (7,67) Botten Eneby (6,30) Långsjö Bällsta Mariehäll Solberga Fagersjö (4,00) 4
Statistikteori Population - parametrar Urval - skattningar Statistiska slutsatser Skatta parametrar Testa hypoteser Population Samtliga fastigheter Medelvärde, µ Urval Sålda fastigheter Medelvärde, E(X) 3 Regressionsmodell Det betingade medelvärdet Modell: y i =a+bx i +e i där y beroende variabel x oberoende variabel (variabler), förklarande variabler a intercept, konstant b riktningskoefficient e residual a, b och e är det som skall skattas. Skattningen sker genom att minimera e. 4 Härledning av a och b OLS (ordinary least square) a = y bx kov( xy) b = var( x) 5 5
Pris, kkr Exempel, Excel-utskrift 800 600 400 00 y = 7,9x - 70,556 R = 0,669 000 800 600 400 00 0 0 0 40 60 80 00 0 40 60 80 6 00 Bostadsyta UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 Exempel, Excel-utskrift ANOVA fg KvS MKv F p-värde för F Regression 545808 545808 3,44 0,00634 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 7 Verbal tolkning Ekonomisk tolkning a det förväntade värdet av y om x är lika med noll b om x ökar med en enhet så ökar y med b enheter 8 6
Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F 545808 545808 0,00634 Regression 3,44 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: om bostadsytan ökar med kvadratmeter ökar priset med 7000 kronor. En fastighet utan bostadsyta betingar ett pris på 70000 kronor. 9 Precision Standardavvikelsen Hypotestest Statistisk tolkning Är b statistiskt skilt från noll? 0 Precision Säkerheten hos modellen kan bl.a. mätas med hur stor spridningen i modellen är. Ju mindre spridning desto bättre modell. Spridningen mäts med variansen och standardavvikelsen. Variansen hos a och b beror på modellens varians, antalet observationer samt medelvärdet och spridningen i den oberoende variabeln. 7
e Precision Standardfel hos skattningen av y: s e n n s ( ˆ e = ei = yi yi ) n i= n i= s e = s Standardfelet hos skattningarna a och b:s a och s b sb = var( b) = se ( ) ( x x) x sa = var( a) = se ( + ) n ( x x) Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F 545808 545808 0,00634 Regression 3,44 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: om bostadsytan ökar med kvadratmeter så ökar priset med 7000 kronor plus/minus 000. Det genomsnittliga felet i skattningarna är 00000 kronor. 3 Förklaringsgrad Determinationskoefficienten, goodness of fit, R-square, R TSS: Total variation i den beroende variabeln RSS: Variation som kan förklaras av modellen ESS: Oförklarad variation TSS=RSS+ESS R =RSS/TSS=-ESS/TSS 4 8
Förklaringsgrad Determinationkoefficient (R ) R n ( yˆ i y) i= = n ( y y) i= i 5 UTDATASAMMANFATTNING Exempel, Excel-utskrift Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F Regression 545808 545808 3,44 0,00634 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: Cirka 60 procent av den totala variationen i priset kan förklaras av variationen i bostadsytan. 6 Enskilda parametrar Hypotestest Är en skattning signifikant skild från noll? Om teststorheten är större än det kritiska värdet förkastas nollhypotesen att koefficientskattningen är lika med noll, dvs den oberoende variabeln (x) har en inverkan på den beroende variabeln (y) 7 9
Hypotestest DVS kan vi dra några slutsatser angående populationen med hjälp av urvalet? Till vår hjälp använder vi både lägesmått (medelvärdet) och spridning (standardavvikelsen). Genom att skatta en teststorhet och jämför det mot ett kritiskt värde kan vi förkasta eller acceptera en hypotes. 8 Hypotestest Nollhypotes En hypotes som vi antar är sann och som vi sedan med hjälp av data försöker få tillräckligt med bevis mot hypotesen. Alternativ hypotes Mot vilken nollhypotesen testat mot. Teststorhet En regel med vars hjälp vi testar hypotesen och där varje urval producerar ett numeriskt värde. Kritiskt värde Det värde som teststorheten jämförs med för att bestämma om nollhypotesen skall förkastas eller ej. 9 Hypotestest Modell: y = a + b *x + b *x Hypotes: H 0 : β = 0 H : β 0 Vi antar att parametrarna har en normalfördelning med det förväntade värdet β och variansen σ b, dvs b N(β,σ b) Normalisera b β N (0,) σ b 30 0
Hypotestest Om, σ b är okänd använder vi oss av skattningen s b istället, vilket innebär att kvoten är t-fördelad istället för normalfördelad, dvs b β b = sb s bq t c = = [ om β = 0 i enlighet med hypotesen ] t n-k (α) t c är teststorheten t n-k (α) är det kritiska värdet Förkasta H 0 if t c > t n-k (α) Teststorheten t c är t-kvoten i MSExcel. 3 Hypotestest Probability 0,45 0,4 0,35 0,3 0,5 0, 0,5 0, 0,05 0 3-4 -3,8-3,5-3,3-3 -,8 -,5 -,3 - -,8 -,5 -,3 - -0,8-0,5-0,3-0 0, 0,5 0,7,,5,7,,5,7 3, 3,5 3,7 3 4 High probability: accept H0 Low probablity: reject H0 Hypotestest Om teststorheten är större än det kritiska värdet förkasta nollhypotesen. Kritiskt värde: t α/ (n-) där α är signifikansnivån och (n-) antalet frihetsgrader. Vanligtvis använder man sig av signifikansnivån 95% och 99%. 33
UTDATASAMMANFATTNING Exempel, Excel-utskrift Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F 545808 545808 0,00634 Regression 3,44 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: t-värdet avseende konstanten är lika med 0,4, dvs nollhypotesen kan inte förkastas. Däremot är t-värdet avseende bostadsytan lika med 3,67 vilket är högre än det kritiska värdet, dvs nollhypotesen kan förkastas på en 95%-ig signifikansnivå. Det innebär att bostadsytan har en effekt på priset. 34 Dummyvariabel En binär variabel som indikerar om en viss enskild observation (objekt) har en viss egenskap eller ej. Om koefficientskattningen är signifikant skild från noll så innebär det att regressionsmodellen skiftar Går att kombinera dummyvariabeln med kontinuerliga variabler. 35 Exempel PRIS BOSTADSYTA POOL 875 67 0 875 5 0 95 35 0 55 64 0 885 30 0 000 43 00 64 0 70 34 0 50 75 0 700 86 36
Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,89 R-kvadrat 0,80 Justerad R-kvadrat 0,74 Standardfel 58 Observationer 0 ANOVA fg KvS MKv F p-värde för F 69539 34769,5 0,004 Regression 3,87 Residual 7 75383 5054,8 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant 39,3 34,00 0,68 0,876-54,095 59,547 BOSTADSYTA 6,0,6 3,709 0,0076,8 9,857 POOL 30,66 3,30,44 0,0446 0,8 63,4 Tolkning: om fastigheten har pool ökar priset med 30000 kronor, allt annat lika. Förklaringsgraden ökar från 58% till 74%. 37 Transformering av variablerna Beroende Oberoende Tolkning y x y=b x y ln(x) y=(b/00)% x ln(y) x % y=(00b) x ln(y) ln(x) % y=b% x 38 Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,9 R-kvadrat 0,83 Justerad R-kvadrat 0,784 Standardfel 0,4 Observationer 0 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% 3,08 0,80 3,8 0,0,7 4,98 Konstant lnboyta 0,75 0,6 4,58 0,00 0,36,4 pool 0,7 0,,34 0,05 0,00 0,55 Tolkning: om bostadsytan ökar med % så ökar priset med 0,75%. Om fastigheten har en pool ökar priset med 7%. Observera: () förklaringsgraden ökar från 74% till 78% pga transformeringen. () t-värdet avseende bostadsytan ökar, dvs skattningen har en högre precision. (3) den genomsnittliga felskattningen har nu sjunkit till 4%. 39 3
Sammanfattning av exempel Genomsnittligt fel Bara pris 3% Bostadsyta % Bostadsyta+pool 6% Transf. variabler 4% 40 Residualanalys Heteroskedasticitet - ej konstant varians Autokorrelation - variansen är korrelerad över tiden Multikollinearitet - hög inbördes korrelation mellan olika oberoende variabler 4 Heteroskedasticitet lnboyta residualdiagram 0, 0,5 0, Residualer 0,05 0 4 4,5 5 5,5-0,05-0, -0,5-0, lnboyta 4 4