Regressionsanalys. Mats Wilhelmsson. Priserna inom en region

Relevanta dokument
LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Multipel Regressionsmodellen

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Regressions- och Tidsserieanalys - F4

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Regressions- och Tidsserieanalys - F1

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Linjär regressionsanalys. Wieland Wermke

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F1

TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Föreläsning G60 Statistiska metoder

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 11: Mer om jämförelser och inferens

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematisk statistik, Föreläsning 5

Metod och teori. Statistik för naturvetare Umeå universitet

7.5 Experiment with a single factor having more than two levels

, s a. , s b. personer från Alingsås och n b

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

import totalt, mkr index 85,23 100,00 107,36 103,76

Regressionsanalys av lägenhetspriser i Spånga

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Grundläggande matematisk statistik

7.5 Experiment with a single factor having more than two levels

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Föreläsning 12: Regression

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik för D, I, Π och Fysiker

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

10.1 Enkel linjär regression

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

TMS136. Föreläsning 13

F11. Kvantitativa prognostekniker

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Medicinsk statistik II

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Lösningar till SPSS-övning: Analytisk statistik

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Parade och oparade test

Medicinsk statistik II

Statistisk försöksplanering

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Skrivning i ekonometri torsdagen den 8 februari 2007

Föreläsning 12: Linjär regression

LABORATION 3 - Regressionsanalys

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Formler och tabeller till kursen MSG830

Kapitel 10 Hypotesprövning

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Föreläsning 12: Repetition

Examinationsuppgifter del 2

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Höftledsdysplasi hos dansk-svensk gårdshund

Tentamen Tillämpad statistik A5 (15hp)

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Matematisk statistik KTH. Formelsamling i matematisk statistik

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Laboration 2 multipel linjär regression

Hur man tolkar statistiska resultat

Regressions- och Tidsserieanalys - F7

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

FÖRELÄSNING 8:

Repetitionsföreläsning

8 Inferens om väntevärdet (och variansen) av en fördelning

Matematisk statistik för B, K, N, BME och Kemister

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Statistik 1 för biologer, logopeder och psykologer

Följande resultat erhålls (enhet: 1000psi):

Tentamen i Matematisk statistik Kurskod S0001M

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Transkript:

Regressionsanalys Mats Wilhelmsson matsw@infra.kth.se 08-790 9 5 KTH Mats Wilhelmsson Tekn. Doktor, 000 Traffic Noise and Property Values Docent i bygg- och fastighetsekonomi KTH, Inst. för Fastigheter och Byggande Enhetschef för bygg- och fastighetsekonomi Forskning Värdepåverkande attribut Högskolor/universitet och ekonomisk tillväxt Byggandet och dess bestämningsfaktorer Priserna inom en region Varför skiljer sig priserna åt inom en region? Dvs vad är det som förklarar prisvariationen vid nyttjandet av tvärsnittsdata? Värdepåverkande egenskaper Fastigheten Yta, kvalitet, ålder Området Positiva och negativa externa effekter Segmenterad marknad Relationen mellan pris och fastighetens värdepåverkande egenskaper skattas mha den sk hedoniska metodiken. 3

Den hedoniska prisekvationen Pr is = α + βf + βo + β3t + ε Fastighetsknutna egenskaper (F) Områdesknutna egenskaper (O) Tidsberoende egenskaper (T) 4 Stockholm stad, 000-0 Unit Average Standard deviation Maximum Minimum Price (P) SEK,663,85,3,84 4,000,000 640,000 Living area (LA) Square meters 9 44 96 35 Quality (Q) Index 7 6 54 7 Age (A) Year 53 8 7 Age > 60 year Binary 46% Lot size (LS) Square meters 737 3 4,33 88 Other area (OA) Square meters 6 3 7 0 Distance (D) Meters from 8,65,688 6,66 4,46 CBD Sea view (SV) Binary % Q 000 Binary 6% Q 000 Binary 0% Q3 000 Binary 9% Q4 000 Binary 0% Q 00 Binary 7% Q 00 Binary 7% Brännkyrka Binary 6% Bromma Binary 4% Enskede Binary 6% Essinge Binary 3% Farsta Binary 9% Hägersten Binary 4% Hässelby Binary % Skärholmen Binary % Skarpnäck Binary 4% Spånga Binary % Vällingby Binary 4% Vantör Binary 4% Västerled Binary 4% 5 Estimeringar (exempel) Koeff. t-värde Bostadsyta.53.3 Biyta.0 3.5 Ålder -.06-3. Ålder (>60).85 0.6 Sjönära.330 5. Tomtareal.37 5.3 Std.poäng.67 6.9 Avst. CBD -.44-9.7 Q 000 -.3-5.3 Q 000 -.05 -.6 Q3 000.00.8 Q4 000.09 3.8 Q 00.09 3.7 Ökar bostadsytan med % så ökar priset med 0,5% Sjöutsikt ökar priset med upp till 30% Ökar tomtstorleken med % ökar priset med 0,% Ökar avståndet från city med % så sjunker priset med 0,4% Ca 65 % av prisvariationen kan förklaras av modellen 6

Pris och avstånd från CBD 0% -0% 50 750 550 7750 050 750 550 Avstånd (meter) -0% -30% Västerort -40% -50% -60% Söderort -70% -80% -90% Priseffekt (procent) 7 Fler attribut. Antal rum Renoveringsbehov Inre/yttre Byte av vitvaror/tvätt/el Dränering av grund Kabel-tv,bredband,Centraldammsugare Garage, bastu, bad, bubbelbad, pool, sjöutsikt Kakelugn/öppen spis 3-glasfönster, snålspolande toaletter/blandare Vatten/fuktskadat Fasad/tak Ventilationssystem Värmesystem Produktion/Distribution Närhet till Allm. Kommunikationer Service Betyg av område Störning av Väg, tåg, flyg, kraftledningar 8 Betalningsviljan Betalningsviljan för olika attribut (kronor) 800000 700000 600000 500000 400000 300000 00000 00000 0 ytterligare ett rum ej biltrafik kakelugn ej direktverkande el sjöutsikt 9 3

Betalningsviljan Betalningsvilja för ytterligare en kvm (kronor) 4000 4000 000 0000 WTP WTP u.inter 000 0000 8000 8000 6000 6000 4000 4000 000 000 0 3 4 5 6 7 0 Antal rum 0 Underhåll av fastigheten Priseffekt (%) 40 30 0 priseffekt priseffekt (inre renoveringsbehov) priseffekt (yttre och inre renoveringsbehov) 0 0 3 4 5 6 7 8 9 Ålder (år) -0-0 -30-40 Betyg av områden Toppen Ålsten (7,83) Höglandet Smedslätten Stora Mossen Södra Ängby Bagarmossen (7,67) Botten Eneby (6,30) Långsjö Bällsta Mariehäll Solberga Fagersjö (4,00) 4

Statistikteori Population - parametrar Urval - skattningar Statistiska slutsatser Skatta parametrar Testa hypoteser Population Samtliga fastigheter Medelvärde, µ Urval Sålda fastigheter Medelvärde, E(X) 3 Regressionsmodell Det betingade medelvärdet Modell: y i =a+bx i +e i där y beroende variabel x oberoende variabel (variabler), förklarande variabler a intercept, konstant b riktningskoefficient e residual a, b och e är det som skall skattas. Skattningen sker genom att minimera e. 4 Härledning av a och b OLS (ordinary least square) a = y bx kov( xy) b = var( x) 5 5

Pris, kkr Exempel, Excel-utskrift 800 600 400 00 y = 7,9x - 70,556 R = 0,669 000 800 600 400 00 0 0 0 40 60 80 00 0 40 60 80 6 00 Bostadsyta UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 Exempel, Excel-utskrift ANOVA fg KvS MKv F p-värde för F Regression 545808 545808 3,44 0,00634 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 7 Verbal tolkning Ekonomisk tolkning a det förväntade värdet av y om x är lika med noll b om x ökar med en enhet så ökar y med b enheter 8 6

Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F 545808 545808 0,00634 Regression 3,44 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: om bostadsytan ökar med kvadratmeter ökar priset med 7000 kronor. En fastighet utan bostadsyta betingar ett pris på 70000 kronor. 9 Precision Standardavvikelsen Hypotestest Statistisk tolkning Är b statistiskt skilt från noll? 0 Precision Säkerheten hos modellen kan bl.a. mätas med hur stor spridningen i modellen är. Ju mindre spridning desto bättre modell. Spridningen mäts med variansen och standardavvikelsen. Variansen hos a och b beror på modellens varians, antalet observationer samt medelvärdet och spridningen i den oberoende variabeln. 7

e Precision Standardfel hos skattningen av y: s e n n s ( ˆ e = ei = yi yi ) n i= n i= s e = s Standardfelet hos skattningarna a och b:s a och s b sb = var( b) = se ( ) ( x x) x sa = var( a) = se ( + ) n ( x x) Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F 545808 545808 0,00634 Regression 3,44 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: om bostadsytan ökar med kvadratmeter så ökar priset med 7000 kronor plus/minus 000. Det genomsnittliga felet i skattningarna är 00000 kronor. 3 Förklaringsgrad Determinationskoefficienten, goodness of fit, R-square, R TSS: Total variation i den beroende variabeln RSS: Variation som kan förklaras av modellen ESS: Oförklarad variation TSS=RSS+ESS R =RSS/TSS=-ESS/TSS 4 8

Förklaringsgrad Determinationkoefficient (R ) R n ( yˆ i y) i= = n ( y y) i= i 5 UTDATASAMMANFATTNING Exempel, Excel-utskrift Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F Regression 545808 545808 3,44 0,00634 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: Cirka 60 procent av den totala variationen i priset kan förklaras av variationen i bostadsytan. 6 Enskilda parametrar Hypotestest Är en skattning signifikant skild från noll? Om teststorheten är större än det kritiska värdet förkastas nollhypotesen att koefficientskattningen är lika med noll, dvs den oberoende variabeln (x) har en inverkan på den beroende variabeln (y) 7 9

Hypotestest DVS kan vi dra några slutsatser angående populationen med hjälp av urvalet? Till vår hjälp använder vi både lägesmått (medelvärdet) och spridning (standardavvikelsen). Genom att skatta en teststorhet och jämför det mot ett kritiskt värde kan vi förkasta eller acceptera en hypotes. 8 Hypotestest Nollhypotes En hypotes som vi antar är sann och som vi sedan med hjälp av data försöker få tillräckligt med bevis mot hypotesen. Alternativ hypotes Mot vilken nollhypotesen testat mot. Teststorhet En regel med vars hjälp vi testar hypotesen och där varje urval producerar ett numeriskt värde. Kritiskt värde Det värde som teststorheten jämförs med för att bestämma om nollhypotesen skall förkastas eller ej. 9 Hypotestest Modell: y = a + b *x + b *x Hypotes: H 0 : β = 0 H : β 0 Vi antar att parametrarna har en normalfördelning med det förväntade värdet β och variansen σ b, dvs b N(β,σ b) Normalisera b β N (0,) σ b 30 0

Hypotestest Om, σ b är okänd använder vi oss av skattningen s b istället, vilket innebär att kvoten är t-fördelad istället för normalfördelad, dvs b β b = sb s bq t c = = [ om β = 0 i enlighet med hypotesen ] t n-k (α) t c är teststorheten t n-k (α) är det kritiska värdet Förkasta H 0 if t c > t n-k (α) Teststorheten t c är t-kvoten i MSExcel. 3 Hypotestest Probability 0,45 0,4 0,35 0,3 0,5 0, 0,5 0, 0,05 0 3-4 -3,8-3,5-3,3-3 -,8 -,5 -,3 - -,8 -,5 -,3 - -0,8-0,5-0,3-0 0, 0,5 0,7,,5,7,,5,7 3, 3,5 3,7 3 4 High probability: accept H0 Low probablity: reject H0 Hypotestest Om teststorheten är större än det kritiska värdet förkasta nollhypotesen. Kritiskt värde: t α/ (n-) där α är signifikansnivån och (n-) antalet frihetsgrader. Vanligtvis använder man sig av signifikansnivån 95% och 99%. 33

UTDATASAMMANFATTNING Exempel, Excel-utskrift Regressionsstatistik Multipel-R 0,79 R-kvadrat 0,63 Justerad R-kvadrat 0,58 Standardfel 0 Observationer 0 ANOVA fg KvS MKv F p-värde för F 545808 545808 0,00634 Regression 3,44 Residual 8 3485 4060 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant -70,56 9,33-0,4 0,85-745 604 BOSTADSYTA 7,,97 3,67 0,006 3 Tolkning: t-värdet avseende konstanten är lika med 0,4, dvs nollhypotesen kan inte förkastas. Däremot är t-värdet avseende bostadsytan lika med 3,67 vilket är högre än det kritiska värdet, dvs nollhypotesen kan förkastas på en 95%-ig signifikansnivå. Det innebär att bostadsytan har en effekt på priset. 34 Dummyvariabel En binär variabel som indikerar om en viss enskild observation (objekt) har en viss egenskap eller ej. Om koefficientskattningen är signifikant skild från noll så innebär det att regressionsmodellen skiftar Går att kombinera dummyvariabeln med kontinuerliga variabler. 35 Exempel PRIS BOSTADSYTA POOL 875 67 0 875 5 0 95 35 0 55 64 0 885 30 0 000 43 00 64 0 70 34 0 50 75 0 700 86 36

Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,89 R-kvadrat 0,80 Justerad R-kvadrat 0,74 Standardfel 58 Observationer 0 ANOVA fg KvS MKv F p-värde för F 69539 34769,5 0,004 Regression 3,87 Residual 7 75383 5054,8 Totalt 9 87063 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% Konstant 39,3 34,00 0,68 0,876-54,095 59,547 BOSTADSYTA 6,0,6 3,709 0,0076,8 9,857 POOL 30,66 3,30,44 0,0446 0,8 63,4 Tolkning: om fastigheten har pool ökar priset med 30000 kronor, allt annat lika. Förklaringsgraden ökar från 58% till 74%. 37 Transformering av variablerna Beroende Oberoende Tolkning y x y=b x y ln(x) y=(b/00)% x ln(y) x % y=(00b) x ln(y) ln(x) % y=b% x 38 Exempel, Excel-utskrift UTDATASAMMANFATTNING Regressionsstatistik Multipel-R 0,9 R-kvadrat 0,83 Justerad R-kvadrat 0,784 Standardfel 0,4 Observationer 0 Koefficienter Standardfel t-kvot p-värde Nedre 95% Övre 95% 3,08 0,80 3,8 0,0,7 4,98 Konstant lnboyta 0,75 0,6 4,58 0,00 0,36,4 pool 0,7 0,,34 0,05 0,00 0,55 Tolkning: om bostadsytan ökar med % så ökar priset med 0,75%. Om fastigheten har en pool ökar priset med 7%. Observera: () förklaringsgraden ökar från 74% till 78% pga transformeringen. () t-värdet avseende bostadsytan ökar, dvs skattningen har en högre precision. (3) den genomsnittliga felskattningen har nu sjunkit till 4%. 39 3

Sammanfattning av exempel Genomsnittligt fel Bara pris 3% Bostadsyta % Bostadsyta+pool 6% Transf. variabler 4% 40 Residualanalys Heteroskedasticitet - ej konstant varians Autokorrelation - variansen är korrelerad över tiden Multikollinearitet - hög inbördes korrelation mellan olika oberoende variabler 4 Heteroskedasticitet lnboyta residualdiagram 0, 0,5 0, Residualer 0,05 0 4 4,5 5 5,5-0,05-0, -0,5-0, lnboyta 4 4