Analys av bostadsrättspriset i Stockholms innerstad

Storlek: px
Starta visningen från sidan:

Download "Analys av bostadsrättspriset i Stockholms innerstad"

Transkript

1 Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik Skolan för Teknikvetenskap Kungliga Tekniska Högskolan (KTH) Stockholm, Sweden 21 maj 2015

2 Förord Denna uppsats är ett kandidatexamensarbete i Teknisk Fysik på Kungliga Tekniska Högskolan. Rapporten innefattar 15 högskolepoäng och genomfördes på Institutionen för Matematisk Statistik. Jag vill rikta min tacksamhet till Lars- Erik Ericson på Value Guard och Johan Winte på Erik Olsson för deras bidrag och råd som har gjort denna studie möjlig. Jag vill också tacka min handledare Boualem Djehiche som har visat stöd under hela kandidatexamensarbetet.

3 Sammanfattning I denna studie används en multipel linjär regression för att analysera ett antal variablers inverkan på bostadsrättspriset i Stockholms innerstad. Resultatet kan användas till att prediktera och betrakta procentuella förändringar för slutpriset av en bostadsrätt i Stockholms innerstad. Fem olika modeller konstruerades varefter de analyserades och jämfördes. Modellerna konstrueras med hjälp av data för alla sålda bostadsrätter i Stockholms innerstad mellan åren från fastighetsförmedlingen Erik Olsson. Resultatet av studien visar bland annat att boarean har störst positiv påverkan på slutpriset. Bland stadsdelarna i innerstaden är Östermalm stadsdelen som bidrar mest till ett dyrare bostadsrättspris. Samtliga modeller hade förklaringsgrader på 89% 94%.

4 Abstract In this study a multiple linear regression was carried out in the interest of analysing a number of variables effect on the final prices of apartments in Stockholm s inner districts. The result may be employed to predict and observe percentage changes on the final price of apartments in Stockholm in the future. Five models were constructed after which they were analysed and compared. The construction of these models were supported by data from the real estate agency Erik Olsson. The result of this study displays that living space have the highest positive influence on the final prices. Among all the inner city districts, Östermalm is the district that contributes the most to the final price growth. All five models had a coefficient of determination between 89% 94%.

5 Innehåll 1 Inledning Bakgrund Mål och Syfte Teori Terminologi Regression Antagande Multipel linjär regression Minstakvadratmetoden Hypotesprövning Tester t-test F-test för allmän signifikans p-värde Variabelselektion Förklaringsgrad R 2 och R Backward elimination Forward selection Stegvis regression AIC Transformation av variabler Probability-Probability plott Extremvärden Fallgropar Multikolinjäritet Heteroskedasticitet Metod Idé Datainsamling Avgränsning Modellval Hypotes Genomförande 13 5 Resultat Försök Försök Försök Försök Försök

6 6 Diskussion Analys av Försök Analys av Försök Analys av Försök Analys av Försök Tillförlitlighet Analys av Försök Tillförlitlighet Vidare studier Slutsats 29 8 Appendix 31

7 1 Inledning 1.1 Bakgrund Stockholm utgör ett centrum för Skandinavien. Varje år strömmar människor till Stockholm för att uppleva den rika blandningen av kultur, nöjesliv och den välbevarade naturen. Kombinationen av dessa faktorer och en hållbar infrastruktur har bidragit till att Stockholm nyligen blivit utsedd till en av världens bästa städer [2]. Stockholms alltmera internationella status har lockat investeringar och karriärmöjligheter. Dessa faktorer i kombination med en nedåtgående bolåneränta och en stor efterfråga av bostadsrätter har medfört att bostadsrättspriserna i Stockholm ständigt ökat. [1][3] Ett bostadsköp är, för många, det viktigaste och svåraste beslutet man tar i livet. Oavsett om det gäller en bostadsinvestering eller om ett nytt hem, innebär beslutet med stor risk att skuldsätta sig. Därför är det av stor vikt att vid ett bostadsköp kunna göra en rimlig bedömning av bostadsrättens värde. 1.2 Mål och Syfte Målet med studien är att genom en multipel linjär regressionsanalys behandla en handfull relevanta variabler och undersöka dess inverkan på slutpriset för bostadsrätter i Stockholms innerstad. Syftet med studien är att formulera en tillförlitlig modell för att prediktera slutpriset för en bostadsrätt. 1

8 2 Teori 2.1 Terminologi För att läsaren ska känna sig bekväm med de notationer och termer som skall användas i texten har här nedan gjort en lista med termer och dess innebörd. Den vanliga modellen för en multipel linjär regression ser ut på följande sätt: y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i β k x ik + ɛ i i = 1, 2,..., n Responsvariabel: även kallad den beroende variabeln betecknas med y eller y i vid flera ekvationer (observationer). Kovariat: som ibland kallas regressor eller den oberoende variabeln har notationen x ik och definieras som den i:te observationen för den k:te oberoende variabeln. Beta: är koefficienterna till kovariaterna och betecknas β. De flesta problemen inom regressionsanalysen är att uppskatta dessa. Dummy-variable: även kallad indikatorvariabel på svenska, är en kovariat som endast antar värdet 1 eller 0. Stokastiska feltermen: eller bara feltermen betecknas med ɛ eller ɛ i vid flera observationer. Denna term finns med i ekvationen ovan för att ta med all information som y i inte kan uttryckas med hjälp av xs. [6] Residual: har notationen e eller mer generellt e i vid flera observationer. Residualen definieras som: e i = y i ŷ i. Notera skillnaden mellan residualen och feltermen. Residualen för den i:te observationen är skillnaden mellan det faktiska värdet y i och det uppskattade värdet ŷ i. Medan feltermen är skillnaden mellan det faktiska värdet y i och väntevärdet av y i. Residualen kan alltså betraktas som en skattning av feltermen.[6] BLUE: står för Best Linear Unbiased Estimator. 2.2 Regression Regressionsanalys är en av många statistiska metoder för att prediktera relationer mellan olika variabler. Fokuset ligger på att uppskatta sambanden mellan utvalda kovariater och responsvariabler Antagande För minstakvadrat estimatorn skall vara BLUE (se 2.2.3) för en linjär regressionsmodell behöver följande antagande uppfyllas: 2

9 1. Feltermerna e i antas ha ett medelvärde lika med 0, med andra ord: E(e i x i1, x i2,..., x ik ) = 0 (1) 2. Feltermerna har en konstant varians σ 2 och är därmed homoskedastiska, alltså: E(e i x i1, x i2,..., x ik ) = σ 2 (2) När data behandlas i verkligheten är det sällan detta krav uppfylls. Vilket leder till ett problem som kallas heteroskedasticitet som diskuteras längre fram i rapporten. 3. Alla förklarande variabler är okorrelerade med feltermen. 4. Feltermerna e i antas vara okorrelerade med varandra. 5. Feltermerna är normalfördelade. 6. Ingen förklarande variabel får vara en perfekt linjär funktion av några av de andra förklarande variablerna. Det får alltså ej förekomma perfekt multikolinjäritet (se 2.5.1). Dessa antagande kallas för Gauss-Markov antaganden och är nödvändiga för att ge lämpliga koefficienter vid användning av minstakvadratmetoden Multipel linjär regression Den generella ekvationen för en multipel linjär regressionsmodell ser ut som följande: y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i β k x ik + ɛ i i = 1, 2,..., n (3) Betydelserna av de beteckningar i ekvationen kan hittas i sektionen 2.1. Ekvationen kan med hjälp av matrisnotation uttryckas på följande sätt: där Y = Xβ + ɛ (4) y 1 1 x 11 x 1k β 0 ɛ 1 y 2 Y =., X = 1 x 21 x 2k......, β = β 1., ɛ = ɛ 2. y n 1 x n1 x nk β k ɛ n 3

10 2.2.3 Minstakvadratmetoden Minstakvadratmetoden eller mer känd som OLS, Ordinary Least Square är en standardmetod för att skatta den teoretiska ekvationen (3). Estimationen av Y ges av: Ŷ = X ˆβ (5) där Ŷ = Y e och e är residualerna (skattningen av ɛ). ˆβ kan uttryckas som: ˆβ = A 1 X T Y (6) som minimerar kvadratsumman av residualerna. Där A = X T X. Den skattade regressionsekvationen blir: y i = β 0 + ˆβ 1 x i1 + ˆβ 2 x i ˆβ k x ik i = 1, 2,..., n (7) Hypotesprövning Hypotesprövning används för att testa om de beräknade β-koefficienterna är statistiskt signifikanta och sanna för den framtagna regressionsmodellen. Vid en hypotesprövning införs en nollhypotes H 0 (oftast den man tror inte är sannolik att inträffa) och en mothypotes H A. Därefter besluts vilken risknivå man vill ha på hypotesprövningen. En risknivå på 5% innebär en risk på 5% att ha fel om H 0 förkastas. Det finns två typer av fel man kan göra inom hypotesprövning. Typ I fel. Förkasta en sann nollhypotes Typ II fel. Förkasta ej en falsk nollhypotes 2.3 Tester t-test Ett t-test används oftast när enskilda β-koefficienter skall testas för regressionsekvationen (3). I ett tvåsidigt t-test undersöks om varje enskild β bör vara noll. Detta betyder att motsvarande kovariat inte bör ingå i modellen. En matematisk formulering av hypotesen ser ut på följande sätt: H 0 : β = 0 H A : β 0 (8) För att få användbar information från ett t-test krävs att feltermerna i regressionsmodellen måste vara normalfördelade. t-värdet för varje skattad koefficient ˆβ j i ekvationen (7) beräknas enligt: t j = ˆβ j β H0 SE( ˆβ j ) j = 1, 2,..., k (9) I ett tvåsidigt t-test är nollhypotesen oftast H 0 = 0, därmed reduceras ekvation (9) till: ˆβ j t j = SE( ˆβ j = 1, 2,..., k (10) j ) 4

11 Här är ˆβ j den skattade regressionskoefficienten för den j:te variabeln och SE( ˆβ j ) betecknar den estimerade standardavvikelsen av ˆβ j. Avgörandet för förkastningen av nollhypotesen baseras på t-värdena från regressionen. Dessa jämförs med de kritiska t-värdena t c från en tabell. Det kritiska värdet särskiljer acceptans området från förkastningsområdet. Det kritiska värdet beror på antalet frihetsgrader som ges av n k 1, där n är antalet observationer och k är antalet estimerade koefficienter (β 0 inkluderad). För att H 0 skall förkastas måste följande villkor uppfyllas: t j > t c (11) t-test är begränsad till att endast testa en koefficient i taget. När situationer, som involverar tester av hypoteser med fler än en koefficient, uppstår används ett F-test. [6][7] F-test för allmän signifikans F-test används oftast för att testa allmän signifikans hos en regressionsmodell. Detta görs genom att undersöka om den övergripande kurvanpassningen för modellen försämras, givet olika restriktioner på modellen, för att överensstämma med nollhypotesen. [6] Nollhypotesen för ett F-test ges av: H 0 : β 1 = β 2 =... = β k = 0 H A : H 0 är inte sant (12) F-värdet för allmän signifikans beräknas enligt: F = (ŷi ȳ) 2 /k e 2 i /(n k 1) (13) För att besluta om att förkasta H 0 måste följande krav uppfyllas: p-värde F F c (14) p-värdet för ett test beskriver den minsta signifikansnivån där nollhypotesen förkastas. Den beskriver styrkan hos beviset mot nollhypotesen. Givet en signifikansnivå α för ett test och att nollhypotesen inte förkastas vid den nivån. Om p-värdet för testet är mindre eller lika med α förkastas nollhypotesen. [7] 2.4 Variabelselektion Förklaringsgrad R 2 och R 2 Förklaringsgraden R 2 är ett mått på hur stor del av den estimerade regressionsekvationen förklarar förändringarna hos responsvariabeln. Värdet är alltså ett mått på hur bra ekvationen anpassar mätdatan. Förklaringsgraden för en modell definieras som: R 2 = 1 RSS TSS = 1 5 e 2 i (yi ȳ) 2 (15)

12 Ur detta samband ses att R 2 måste ligga i intervallet: 0 R 2 1 (16) Ett högt R 2 värde innebär att residualerna minimeras. Detta leder till en bättre skattning av responsvariabeln. Ett stort problem med R 2 är att värdet aldrig kan minska när fler oberoende variabler adderas till modellen. En modell med ett större antal kovariater kommer alltid ha bättre eller lika bra R 2.[6] På grund av detta innebär inte alltid att ett högt R 2 värde har en bättre precision hos modellen. Detta problem kan lösas med att introducera R 2 eller R 2 adj, vilket är R 2 med justerad antal frihetsgrader: R 2 = 1 RSS/(n k 1) TSS/(n 1) = 1 e 2 i /(n k 1) (yi ȳ) 2 /(n 1) (17) Backward elimination Metoden backward elimination väljer de bästa kovariaterna till en regressionsmodell. Metoden utgår ifrån en modell med alla kovariater inkluderade. Under varje steg i processen elimineras en kovariat med det högsta p-värdet som överstiger en förutbestämd signifikansnivå α crit. Sedan omprövas den nya modellen igen. När alla kovariaters p-värde är mindre än α crit avslutas processen och därmed fås den önskade modellen Forward selection Forward selection är en omvänd backward elimination. Här startar en modell utan kovariater, dvs y = β 0. Vid varje körning adderas en kovariat till modellen genom att välja den med lägst p-värde som är mindre än α crit. Processen upprepas tills inga kovariater kan läggas till Stegvis regression Denna metod är en kombination av backward elimination och forward selection. Under varje körning kontrolleras att de tidigare inkluderade kovariaterna i regressionsmodellen ger signifikanta utslag med hypotesen β j = 0. De kovariater som inte längre ger signifikans utesluts från modellen AIC AIC står för Akaike Information Criterion är en metod för att bestämma vilka variabler som skall ingå i modellen genom att mäta den relativa kvaliten hos regressionsmodellen i frågan. Ekvationen till modellerna ges av följande: ( ) RSS AIC = n ln + 2k (18) n där n är antalet observationer, k är antalet förklarande variabler i modellen och RSS är kvadratsumman av residualerna. Vid jämförelse mellan olika modeller är målet att försöka minimera AIC. [6] 6

13 2.4.6 Transformation av variabler I vissa fall är det lämpligt att transformera variablerna i regressionsmodellen. Notera att minstakvadratmetoden endast kräver att koefficieterna β j är linjära men tillåter att variablerna att vara icke-linjära. De vanligaste transformationerna är dubbel-log form och semi-log form. Vid dubbel-log form logaritmeras både responsvariabeln och alla eller enstaka kovariater. Detta ger formen: ln(y) = β 0 + β 1 ln(x 1 ) + β 2 ln(x 2 ) β k ln(x k ) + ɛ (19) Denna funktionsform kan tolkas som att en ökning av en kovariat x j med 1% motsvaras av en ökning av responsvariabeln med β j %, när övriga kovariater hålls konstanta. Semi-log form är när logaritmering endast appliceras på responsvariabeln y. Denna funktionsform är mer lämplig vid situationer där en ökning av en kovariat x j medför en förändring i responsvariabeln y med ökad takt. Med andra ord när datan har ett exponentiellt beroende. Semi-log funktionsformen ser ut på följande sätt: ln(y) = β 0 + β 1 x 1 + β 2 x β k x k + ɛ (20) Vid en ökning av en kovariat med 1 enhet, när de övriga kovariaterna hålls konstanta, fås en procentuell ökning av responsvariabeln. Responsvariabeln ökar med 100 β j % då en kovariat ökar med 1 enhet Probability-Probability plott P-P plott är en grafisk metod för att avgöra om en given datamängd följer en testfördelning genom att plotta deras kumulativa fördelningsfunktioner mot varandra. Detta kan användas för att bland annat undersöka om residualerna är normalfördelade Extremvärden Extremvärden utgörs av observationer som har väldigt låga eller väldigt höga värden på responsvariabeln i jämförelse med andra observationer. Extremvärden påverkar skattningen av parametrarna i regressionsmodellen, därför är det viktigt att finna dessa extremvärden i syftet att få en bättre modell. För att ta reda på hur stor påverkan en observation har för modellen används Cook s avstånd. Cook s avstånd är ett mått av effekten på de skattade parametrarna när i:te observationen tas bort från datamängden. Detta beräknas enligt: n l=0 D i = (ŷ l ŷ l(i) ) 2 k MSE där MSE är medelkvadratsumman för residualerna och defineras som: (21) MSE = 1 n (ŷ l ŷ l(i) ) 2 (22) n Om D i > 1 antas den i:te observationen vara ett extremvärden. [4][6] i=1 7

14 2.5 Fallgropar Multikolinjäritet Vid perfekt multikolinjäritet uppfylls inte antagandet 6 i sektion (2.2.1). Multikolinjäritet kan beskrivas som förändringen i en kovariat beror på en eller flera av de andra kovariaterna. En konsekvens av multikolinjäritet är att variansen och standardavvikelsen för de estimerade koefficienterna kommer att öka. Ur detta följer en minskning av t-värdet enligt ekvation (9). Hur upptäcks multikolinjäritet? I verkligheten är nästan alla förklarande variabler på något sätt relaterade till varandra. Så frågan är inte huruvida om det finns multikolinjäritet eller inte utan hur allvarlig den är och hur mycket man kan tillåta i en modell. Det enklaste sättet att upptäcka en korrelation mellan två kovariater är att använda korrelationskoefficienten c. Värdet på korrelationskoefficienten ligger mellan 1 < c < 1. Denna metod är dock mycket begränsad för modeller med mer än två kovariater. Korrelationskoefficienten är endast ett tillräckligt men ej nödvändigt test för multikolinjäritet.[6] Ett enkelt och populär metod för att testa multikolinjäritet är att använda Variance Inflation Factor (VIF). VIF är en skattning av hur mycket multikolinjäritet har ökat variansen hos en skattad koefficient ˆβ j. Värdet beräknas genom att först bilda en regressionsmodell med en av kovariaterna som en funktion av de andra kovariaterna: x 1 = α 1 + α 2 x 2 + α 3 x α k x k + v (23) där v är den vanliga feltermen. Sedan kan VIF beräknas för ˆβ j enligt: VIF( ˆβ 1 j ) = 1 R 2 j (24) där R 2 j är förklaringsgraden till ekvationen (23). Ett högt VIF medför en minskning av t-värdet vilket leder till risken att variabeln inte blir signifikant för modellen. En tumregel är att om VIF > 5 så råder allvarlig multikolinjäritet. Det finns tre saker man kan göra för att minska multikolinjäritet. Åtgärderna är följande: Slänga en den överflödiga variabeln, öka antalet observationer eller att inte göra något alls. [6] Heteroskedasticitet Heteroskedasticitet betyder att observationer från feltermerna e i inte har konstant varians. Detta skapar felaktiga skattningar på koefficienternas varians vilket medför att signifikanstesterna, t-test och F-test, på dessa koefficienter blir inkorrekta. Detta kan resultera i att variablerna i modellen kan bli felaktigt inkluderade eller exkluderade. [6] En metod för att upptäcka heteroskedasticitet är att använda White Test. För detaljer för testet se sidan 279 i boken Introductory Econometrics: A Modern Approach av Wooldridge M. Jeffrey. Ett annat alternativ är att plotta residualerna mot de skattade y-värdena och undersöka om datapunkterna har ett slumpmässigt mönster. Om residualerna är jämnt fördelade runt 0 betyder ett 8

15 homoskedasticisk beteende. En metod för att åtgärda heteroskedasticitet är att använda White s consistent estimator. I denna studie används transformation av variabler för att få bort heteroskedasticitet. 9

16 3 Metod 3.1 Idé I början av undersökningen formuleras idéer om vilka variabler (egenskaper) som kan ha stor betydelse för slutpriset på en bostadsrätt. Denna del av undersökningen kräver mycket sunt förnuft och försiktighet när de preliminära variablerna väljs ut. 3.2 Datainsamling När idén är färdigställd och variablerna har valts ut följer datainsamlingen. All data som används i undersökningen har kommit från fastighetsförmedlingen Erik Olsson. Datan innehåller följande variabler: Våning Antal rum Månadsavgift är månadsavgiften som betalas till bostadsföreningen. Geografisk läge anger i vilken stadsdel bostadsrätten ligger. Storlek är arean på bostadsrätten i kvadratmeter. Byggnadsår är året fastigheten byggdes. Försäljningsdatum är dagen bostadsrätten sålts. Visningsdatum är visningsdagen för bostadsrätten. Status är vilken typ av försäljning bostadsrätten har. Pris är slutpriset på bostadsrätten vid försäljningen I studien används endast data från en fastighetsförmedling eftersom varje fastighetsförmedling har olika processer för bostadsförsäljningen och evalueringen av priset en bostad. Datan från olika fastighetsförmedlingar kan därmed ha olika avvikelser. 3.3 Avgränsning Givet tidsramen för denna studien behövdes en avgränsning. Fokuset i denna studie ligger på data mellan åren Anledningen till valet är att data till de äldre årgångarna oftast saknas och att majoriteten av försäljningarna har också ägt rum under Dessutom har händelser i världsekonomi mellan varierat kraftigt vilket kan bidra till en instabilitet till modellen. Undersökningen begränsar också till att alla bostadsrätter ligger i Stockholms innerstad. I tabell 9 i appendix anges stadsdelarna där bostadsrätterna har sålts. 10

17 3.4 Modellval Modellval är centralt inom regressionsanalysen. Det finns ett flertals metoder, som nämns i sektion 2.4, för att välja en modell som förklarar responsvariabeln. Innan dessa teoretiska metoder tillämpades, valdes responsvariabeln och de oberoende variablerna som tros påverka responsvariabeln. De oberoende variablerna valdes till: månadsavgift, byggnadsår, våning, storlek, antal rum, stadsdel och kvartal. Där stadsdel och kvartal är indikatorvariabler. I denna studie är bostadsrätterna belägna i 16 olika stadsdelar i Stockholms innerstad. Kvartalen är som vanligt indelad i 4 perioder och bestäms av försäljningsdatumet för bostadsrätten. Tanken bakom valet av variabeln stadsdel istället för: avståndet till Stockholms stadskärnan, är dels för att avståndet till Stockholms stadskärna skiljer sig inte avsevärt mycket och anses därför inte lika viktig faktor vid köp av bostadsrätter i delområdena i Stockholms innerstad. Avstånd är dessutom svårt att mäta. Stadsdel är ett lättare mått och anses vara en viktigare faktor eftersom det är känt att bostadsrättspriserna skiljer sig för de olika stadsdelarna. I analysen testas följande tre funktionsformer: Pris = β 0 + β 1 Storlek + β 2 Månadsavgift + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + β m Kvartal + ɛ (25) ln(pris) = β 0 + β 1 Storlek + β 2 Månadsavgift + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + β m Kvartal + ɛ (26) ln(pris) = β 0 + β 1 ln(storlek) + β 2 ln(månadsavgift) + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + β m Kvartal + ɛ (27) där l = 6,..., 20 och m = 21,..., Hypotes En hypotes ställs upp innan analysen. Den anger tecknen på koefficienterna till de valda kovariaterna. Låt P = Pris, M = Månadsavgift, B = Byggnadsår, V = Våning, S = Storlek, A = Antal rum, K = Kvartal och G = Stadsdel. Hypotesen på tecknen ges av följande uttryck: P = f( M, ± B, + V, + S, + A, ± K, ± G) + ɛ (28) Tecknen ovanför variablerna indikerar de hypotetiska resonemangen för hur variablerna påverkar priset P. Tecknet för byggnadsår är svår att ha någon hypotes om, det är möjligt att äldre lägenheter bidrar till ett högre slutpris eftersom sekelskiftslägenheterna är väldigt populära. Månadsavgift förväntas ha en negativ inverkan på priset eftersom en högre avgift bidrar till dyrare levnadskostnader i 11

18 bostadsrätten. En större boarea förväntas att öka priset på en bostadsrätt. Flera rum leder oftast till en större boarea som i sin tur påverkar priset positivt. Därmed bör antal rum också påverka priset positivt. En högre våningsplan bör öka slutpriset eftersom det oftast innebär bättre utsikt och ljussättning. Priserna borde vara högre i stadsdelarna närmast cityområdet, därför borde dessa ha positivt tecken. Stadsdelarna som ligger något längre bort är svårt att hypotisera. Samma svårighet gäller för kvartal. Det är möjligt att under vissa månader, som till exempel sommarperioden, när färre bostäder finns på marknaden, kan leda till en ökad efterfrågan och därmed ökat slutpris. 12

19 4 Genomförande Hela analysen för studien utförs i programmet Rstudio. Signifikansnivån väljs till α crit = 5%, vilket innebär att det finns en risk på 5% att ha fel om nollhypotesen förkastas. Först görs en stegvis regression med alla variabler som nämndes i sektion 3.4. Processen kontrollerar att alla statistisk signifikanta kovariater behålls i regressionsmodellen. Vidare testas de kvarstående variablerna genom att manuellt bilda olika modeller med olika variabelkombinationer. I analysen används första kvartalet och stadsdelen Fredshäll som benchmark. Antaganden som nämndes i sektion (2.2.1) krävs för att minstakvadratmetoden skall ge användbara resultat. Analysen av dessa antaganden utförs med hjälp av grafiskanalys av residualerna för respektive regressionsmodell. Samtliga analyser utfördes på data mellan åren där försäljningspriset har normaliserats med januari 2010 som bas, med hjälp av bostadsindexen från Value Guard, för en rättvisare jämförelse. Först rensades alla sålda bostäder som inte ägde rum mellan åren Därefter togs bostadsrätter bort för de fall där relevant information saknades. Sedan rensades alla bostadsrätter som inte hade statusen: till salu, där försäljningstypen inte var budgivning. Anledningen till detta är att undersökningen skall enbart fokusera på en typ av försäljning för att undvika modellfel. Därefter togs extremvärden i datamängden bort eftersom dessa kan bidra till för låga eller för höga värden för regressionsmodellen. Informationen som exkluderades var liten i förhållande till hela datamängden och därför bör det inte påverka modellens tillförlitlighet avsevärt. 13

20 5 Resultat 5.1 Försök 1 Med stegvis regression ges första regressionsmodellen av följande: Pris = β 0 + β 1 Storlek + β 2 Månadsavgift + β 3 Våning + + β 4 Byggnadsår + β 5 Antal rum + β l Stadsdel + ɛ (29) En regressionstabellen till den ursprungliga regressionen visas i figur 10 i appendix. Notera att kvartal är insignifikant för slutpriset. Nedan i tabell 1 visas en regressionssammanfattning för modellen med de enbart de signifikanta kovariaterna. I tabellen finns bland annat kovariaternas koefficienter, standardfelen som står inom parentes, t-värden, p-värden och förklaringsgraden. Modell 1 (Intercept) ( ) t=17.69 Storlek (809.95) t=55.79 Månadsavgift (11.40) t= 9.74 Våning ( ) t=9.05 Byggnadsår (322.99) t= Antal rum ( ) t=10.14 Gamla Stan ( ) t= 2.79 Hjorthagen ( ) t= 2.49 Kungsholmen ( ) t=4.59 Ladugårdsgärdet ( ) t=3.66 Norrmalm ( ) t=6.11 Reimersholme ( ) t=3.23 Stadshagen ( ) t=4.01 Södermalm ( ) t=3.15 Vasastaden ( ) t=6.50 Östermalm ( ) t=8.54 R R 2 adj Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 1: Sammanfattning av regression; försök 1 Alla kovariater i försök 1 är statistiskt signifikanta och har samma tecken som hypotesen. Förklaringsgraden till modellen blev R 2 adj = och den skattade standardavvikelsen för residualerna blev kr. Nedan i 1 visas en residualplott för regressionen. 14

21 Beroende variabel: Pris Standardiserade Residualer Standardiserade Skattade Värden Figur 1: Standardiserad residualplott för försök 1 Datapunkterna i figur 1 visar inget slumpmässigt mönster. Det implicerar att residualen inte är konstant. Därmed dras slutsatsen att heteroskedasticitet råder. Vid undersökning av residualernas sannolikhetsfördelning används P-P plott. Resultat visas nedan i figur 2. P P Plott av Standardiserade Residualer Beroende variabel: Pris Förväntad Kumulativ Fördelning Observerad Kumulativ Fördelning Figur 2: P-P plott för försök 1 Grafen ovan visar att datapunkterna inte följer den räta linjen. Vilket innebär 15

22 att residualerna inte uppfyller normalfördelningsantagandet. Vidare utförs ett multikolinjäritetstest på modellen eftersom det misstänks om att storlek och antal rum är korrelerade. VIF används för testet och resultat visas i tabell 2 nedan. x i : Storlek Antal rum Månadsavgift Våning Byggnadsår Stadsdel VIF: Tabell 2: VIF värden till kovariaterna i försök 1 Ur tabellen ovan observeras att det råder allvarlig multikolinjäritet mellan storlek och antal rum. Därför utesluts variabeln antal rum vid skapandet av den nya modellen. 5.2 Försök 2 Den nya regressionsmodellen ges av: Pris = β 0 + β 1 Storlek + β 2 Månadsavgift + β 3 Våning + + β 4 Byggnadsår + β l Stadsdel + ɛ (30) Som i försök 1 följer nedan en sammanfattning av regressionen. Modell 2 (Intercept) ( ) t=16.17 Storlek (536.14) t=95.95 Månadsavgift (11.59) t= 8.54 Våning ( ) t=8.73 Byggnadsår (326.83) t= Gamla Stan ( ) t= 2.38 Hjorthagen ( ) t= 2.39 Kungsholmen ( ) t=3.82 Ladugårdsgärdet ( ) t=3.06 Norrmalm ( ) t=5.13 Reimersholme ( ) t=3.00 Stadshagen ( ) t=3.44 Södermalm ( ) t=2.22 Vasastaden ( ) t=5.46 Östermalm ( ) t=7.78 R R 2 adj Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 3: Sammanfattning för regression; försök 2 En minskning av förklaringsgraden observeras men ändringen är ej signifikant. Här blev den skattade standardavvikelsen för residualerna kr. Nedan visas den standardiserade residualplotten som testar homoskededasticitet. 16

23 Beroende variabel: Pris Standardiserade Residualer Standardiserade Skattade Värden Figur 3: Standardiserad residualplott för försök 2 Figur 3 är i liknelse med figur 1, vilket betyder att heteroskedasticitet fortfarande råder. Normalitetsantagandet verifieras i figur 4 nedan. P P Plott av Standardiserade Residualer Beroende variabel: Pris Förväntad Kumulativ Fördelning Observerad Kumulativ Fördelning Figur 4: P-P plot för försök 2 Datapunkterna avviker fortfarande någorlunda från den räta linjen, därmed uppfyller residualerna inte normalitetsantagandet. Ett multikolinjäritetstest görs för att säkerhetsställa att ingen multikolinjäritet förekommer i modellen. 17

24 x i : Storlek Månadsavgift Våning Byggnadsår Stadsdel VIF: Tabell 4: VIF värden till kovariaterna i försök 2 Ingen multikolinjäritet råder i modellen. 5.3 Försök 3 Som en åtgärd till residualernas stora standardavvikelser och heteroskedasticitet logaritmeras responsvariabeln. Den tredje regressionsmodellen ges av följande: ln(pris) = β 0 + β 1 Storlek + β 2 Månadsavgift + β 3 Våning + + β 4 Byggnadsår + β l Stadsdel + ɛ (31) Modell 3 (Intercept) (0.21) t=77.54 Storlek ( ) t=80.78 Månadsavgift ( ) t= 4.73 Våning (0.0017) t=8.11 Byggnadsår ( ) t= Hjorthagen 0.11 (0.03) t= 3.71 Kungsholmen 0.08 (0.02) t=3.93 Ladugårdsgärdet 0.05 (0.02) t=2.32 Lilla Essingen 0.07 (0.03) t= 2.79 Norra Djurgården 0.12 (0.03) t= 3.63 Norrmalm 0.10 (0.02) t=4.25 Reimersholme (0.05) t=1.82 Stadshagen 0.06 (0.03) t=2.25 Stora Essingen 0.08 (0.04) t= 2.20 Södermalm 0.04 (0.02) t=2.29 Vasastaden 0.11 (0.02) t=5.68 Östermalm 0.15 (0.02) t=6.79 R R 2 adj Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05,.p < 0.05 Tabell 5: Sammanfattning för regression; försök 3 Ovan visas som vanligt en sammanfattning av regressionen. Förklaringsgraden hos modellen är 0.891, vilket är någorlunda sämre än försök 1 och 2 men fortfarande högt. Den skattade standardavvikelsen för residualerna blev 13.02%. Notera även att koefficienten är väldigt liten för månadsavgift. Detta implicerar att den har mycket liten procentuell inverkan på responsvariabeln och därmed saknar praktisk signifikans. En lösning till detta är att ha månadsavgift i enheten kkr och låta en ökning med 1 enhet motsvara 1000 kr. Därmed skulle slutpriset till exempel minska med ungefär 1.8% för varje 1000 kronors ökning 18

25 i månadsavgift. Beroende variabel: log(pris) Standardiserade Residualer Standardiserade Skattade Värden Figur 5: Standardiserad residualplott för försök 3 I figur 5 är majoriteten av datapunkterna jämnt fördelade kring 0. Notera att datapunkterna längst till höger liknar en svans vilket indikerar heteroskedasticitet. Men eftersom svansen endast utgör av ett fåtal punkter är det rimligt att förmoda homoskedasticitet. För att se om residualerna är normalfördelade används P-P plott. 19

26 P P Plott av Standardiserade Residualer Beroende variabel: log(pris) Förväntad Kumulativ Fördelning Observerad Kumulativ Fördelning Figur 6: P-P plot för försök 3 Här noteras en förbättring jämfört med föregående försök. Datapunkterna är mycket mer anpassad till den räta linjen och därför antas normalfördelning hos residualerna. 5.4 Försök 4 I ett försök att förbättra regressionsmodellen logaritmerades variablerna månadsavgift och storlek. Den fjärde regressionsmodellen ges av: ln(pris) = β 0 + β 1 ln(storlek) + β 2 ln(månadsavgift) + + β 3 Våning + β 4 Byggnadsår + β l Stadsdel + ɛ (32) Tabell 6 sammanfattar regressionsförsöket 4. Koefficienterna till kovariaterna tolkas procentuellt när storlek eller månadsavgift ökas med 1% medan alla andra hålls konstanta. Förklaringsgraden har förbättrats från till Den skattade standardavvikelsen för residualerna blev 10.94%. Återigen är kvartal och vissa stadsdelar insignifikanta. De resterande kovariaterna visar statistiskt signifikans och t-värdena uppfyller ekvationen (11). 20

27 Modell 4 (Intercept) (0.17) t=83.52 log(storlek) 0.89 (0.01) t= log(månadsavgift) 0.07 (0.01) t= 8.23 Våning 0.01 (0.0014) t=9.79 Byggnadsår ( ) t= Hjorthagen 0.11 (0.02) t= 4.61 Kungsholmen 0.10 (0.02) t=5.90 Ladugårdsgärdet 0.08 (0.02) t=4.42 Norrmalm 0.14 (0.02) t=7.18 Reimersholme 0.13 (0.04) t=3.05 Stadshagen 0.10 (0.02) t=4.40 Stora Essingen 0.07 (0.03) t= 2.48 Södermalm 0.06 (0.02) t=3.85 Vasastaden 0.12 (0.02) t=7.55 Östermalm 0.18 (0.02) t=9.92 R R 2 adj Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 6: Sammanfattning för regression; försök 4 Nedan i figur 7 presenteras en residualplott. Datapunkterna är slumpmässigt fördelade kring 0 vilket förmodar homoskedasticitet. Beroende variabel: log(pris) Standardiserade Residualer Standardiserade Skattade Värden Figur 7: Standardiserad residualplott för försök 4 Nedan i figur 8 framgår att datapunkterna följer den räta linjen mycket väl, 21

28 vilket tolkas som att residualerna är normalfördelade. P P Plott av Standardiserade Residualer Beroende variabel: log(pris) Förväntad Kumulativ Fördelning Observerad Kumulativ Fördelning Figur 8: P-P plot för försök Försök 5 För den sista modellen läggs variabeln antal rum tillbaka i regressionsmodellen. Regressionsekvationen ges av följande: ln(pris) = β 0 + β 1 ln(storlek) + β 2 ln(månadsavgift) + + β 3 Våning + β 4 Byggnadsår + β 5 Antal rum + + β l Stadsdel + ɛ (33) I tabell 7 visas att förklaringsgraden höjts för modellen, vilket är bra. Den skattade standardavvikelsen för residualerna har också minskat till 10.39%. Återigen ses att kvartal är insignifikant. Alla andra kovariater från försök 4 behåller sin statistiska signifikans och uppfyller ekvationen (11). 22

29 Modell 5 (Intercept) (0.17) t=89.53 log(storlek) 0.74 (0.01) t=63.47 log(månadsavgift) 0.08 (0.01) t= Våning 0.01 (0.0013) t=10.35 Byggnadsår ( ) t= Antal rum 0.08 (0.0049) t=17.03 Hjorthagen 0.11 (0.02) t= 4.89 Kungsholmen 0.11 (0.02) t=6.90 Ladugårdsgärdet 0.09 (0.02) t=5.18 Norrmalm 0.16 (0.02) t=8.39 Reimersholme 0.13 (0.04) t=3.33 Stadshagen 0.11 (0.02) t=5.17 Stora Essingen 0.08 (0.03) t= 2.76 Södermalm 0.08 (0.02) t=5.14 Vasastaden 0.14 (0.02) t=9.08 Östermalm 0.19 (0.02) t=10.86 R R 2 adj Antal observationer 2512 p < 0.001, p < 0.01, p < 0.05 Tabell 7: Sammanfattning för regression; försök 5 I figurerna 9 och 10 kan man avläsa att det råder homoskedasticitet och normalitet hos residualerna. Beroende variabel: log(pris) Standardiserade Residualer Standardiserade Skattade Värden Figur 9: Standardiserad residualplott för försök 5 23

30 P P Plott av Standardiserade Residualer Beroende variabel: log(pris) Förväntad Kumulativ Fördelning Observerad Kumulativ Fördelning Figur 10: P-P plot för försök 5 Tabell 8 visar att det råder multikolinjäritet hos modellen. x i : log(storlek) log(månadsavgift) Våning Byggnadsår Antal rum Stadsdel VIF: Tabell 8: VIF värden till kovariaterna i försök 5 24

31 6 Diskussion I följande sektioner diskuteras och analyseras resultaten från sektion Analys av Försök 1 Regressionsmodellen för försök 1 ges av ekvationen (29). Modellen har ett högt R 2 adj vilket är väldigt bra. Alla kovariater förutom kvartal och enstaka stadsdelar är också statistiskt signifikanta och uppfyller ekvation (11). Dock innehåller modellen multikolinjäritet där storlek och antal rum är starkt positivt korrelerade. Detta presenteras i figur 11 i Appendix. Residualplotten i figur 1 visar heteroskedasticitiskt beteende, vilket skapar felskattade koefficienter. Residualerna är inte heller normalfördelade. Orsaken till beteendet kan vara att spridningen av bostadsrättspriserna sträcker sig från hundratusentals kronor till ett flertal miljoner kronor. Eftersom modellen betraktar det faktiska slutpriset kommer residualernas inverkan på slutpriset vara mycket stor för en bostadsrätt med lågt slutpris och knappt något alls för en bostadsrätt med ett högre slutpris. Eftersom egenskaperna hos modell 1 strider emot Gauss-Markov s antaganden så är regressionen inte tillförlitlig, och därmed förkastas modellen. 6.2 Analys av Försök 2 Borttagningen av variabeln antal rum i försök 2 minskade multikolinjäriteten till en accepterad nivå. Däremot var heteroskedasticitet och residualens fördelning fortfarande problematiska som i försök 1. Därför förkastas modellen och ingen vidare analys görs. 6.3 Analys av Försök 3 I försök 3 logaritmerades responsvariabeln pris. Här tolkas en ökning med 1 enhet hos någon av kovariaterna en ökning med 100 β% för responsvariabeln när alla andra kovariaterna hålls konstanta. Som det har nämnts i sektion 5.3 är koefficienten för månadsavgift praktiskt insignifikant. Alternativet är att ange månadsavgift i enheten kkr och låta en ökning med 1 enhet motsvara 1000 kr. Därmed skulle slutpriset minska med ungefär 1.8% för varje 1000 kronors ökning i månadsavgift. Notera att om månadsavgift skulle haft en större procentuell inverkan på slutpriset än alla andra kovariater så skulle denna kovariat sänka slutpriset med väldigt mycket för en dyrare lägenhet. Detta skulle innebära att modellen inte skulle vara lämplig för att betrakta prisförändringar för bostadsrätter vars slutpris är avsevärt utanför prisintervallet för datamängden. Logaritmeringen minskade förklaringsgraden hos modellen till , vilket är någorlunda sämre än försök 1 och 2 men fortfarande högt. Minskningen beror dels på uteslutandet av variabeln antal rum. Återigen är kovariaten kvartal insignifikant. Samma sak gäller för ett antal stadsdelar. Resterande kovariater i försök 3 visar statistisk signifikans och uppfyller ekvationen (11). Alla tecken till koefficienterna är också i enighet med hypotesen. Problemet ligger i att residualerna för modellen tenderar att vara heteroskedasticitetiskt. Det är svårt att 25

32 avgöra om modellen är fri från heteroskedasticitet på grund av svansen längst till höger i figuren Analys av Försök 4 För att konstruera en mer tillförlitlig modell logaritmerads variablerna månadsavgift och storlek. Modellen visade en förbättring av förklaringsgraden. Orsaken till detta är förmodligen att en procentuell ökning i de logaritmerade kovariaterna ger ett mer signifikant utslag hos responsvariabeln för att residualernas inverkan på slutpriset är mer balanserat. All kovariater i modellen behöll sin signifikans och visades också uppfylla Gauss-Markov antagandena Tillförlitlighet För att undersöka modellens tillförlitlighet gjordes ett tvåsidigt t-test för att kontrollera att samtliga kovariater i modellen var statistiskt signifikanta. t- värdena som hittas i tabell 6 uppfyller ekvation (11), där t c = Detta betyder att nollhypotesen kan förkastas och att samtliga koefficienter är skilda från noll på en 5% signifikansnivå. I tabell 6 visas att månadsavgift och byggnadsår har en negativ inverkan på slutpriset. Tecknet för koefficienten till månadsavgiftens inverkan på slutpriset överensstämmer med hypotesen. En ökning av byggnadsår med 1 år ger en minskning av slutpriset med ungefär 0.14%. Detta kan tänkas vara rimligt eftersom de äldre bostadsrätterna i innerstad förmodas vara mer attraktiva än nybyggnationer. Här skulle det vara mer praktiskt signifikant att kolla på en ökning med 10 år. En ökning med 10% på månadsavgiften ger en minskning av slutpriset med ungefär 0.67%. Detta ses som rimligt då en dyrare kontinuerlig månadsutgift bör påverka köparens vilja till att betala mindre för en bostadsrätt. Båda stadsdelarna Hjorthagen och Stora Essingen bidrar också med en negativ inverkan till slutpriset. Detta kan bero på att både stadsdelarna ligger relativt långt ifrån Stockholms stadskärna jämfört med de andra stadsdelarna. En annan orsak kan också vara att tunnelbanan saknas eller svåråtkomlig i dessa två stadsdelar, vilket betyder att transporten till och från stadsdelarna försvåras. Resterande kovariater har en positiv inverkan på slutpriset. Både storlek och våning har samma tecken som hypotesen. I tabell 11 i Appendix ses att storlek har störst inverkan på slutpriset. Att storleken är den viktigaste faktorn för slutpriset anses vara rimligt. En ökning med 10% av boarean innebär en ökning med ungefär 8.9% av slutpriset. Att en bostadsrätt på ett högre våningsplan kostar mer är rimligt då ett högre våningsplan innebär oftast mindre insyn och bättre utsikt och ljussättning. Östermalm tenderar också att vara stadsdelen som har mest positiv inverkan på slutpriset. Detta ses som rimligt med tanke på att Östermalm ligger väldigt nära Stockholms stadskärna och är känt som Stockholms rikemansområde. En förklaring till varför vissa av stadsdelarna inte var signifikanta för modellen är att endast fåtal datapunkter fanns att tillgå för dessa bostadsrätter. 26

33 6.5 Analys av Försök 5 I försök 5 återinfördes antal rum i modellen. Förklaringsgraden höjdes till 93.34%. Eftersom minstakvadrat estimatorn fortfarande är unbiased med multikolinjäritet i modellen, så länge som modellen uppfyller Gauss-Markov antagandena, så är skattningarna av våra koefficienter fortfarande tillförlitliga. Konsekvenserna av multikolinjäritet som nämns i sektion är väldigt liten på grund av datamängdens storlek. Därför ansågs att signifikansen som kovariaten antal rum tillförde till modellen mer övervägande än multikolinjäriteten. Det är dock värt att nämna att vid multikolinjäritet blir koefficienternas varians större och känsligare. Därmed kan tolkningen av koefficienterna ibland försvåras. Om man jämför modell 4 och modell 5 i vår analys så har vi inte dessa problem. I vårt fall får alltså göra en avvägning mellan om man vill ha en modell med multikolinjäritet med en högre förklaringsgrad eller en modell utan multikolinjäritet med en lägre förklaringsgrad Tillförlitlighet Ett tvåsidigt t-test utfördes för att kontrollera att samtliga kovariater var signifikanta. Notera att t-värdet för storlek minskade, vilket var förväntat enligt teorin. Trots multikolinjäritet uppfyller alla t-värdena ekvationen (11). Standardfelen som anges i tabell 7 gav heller ingen signifikant ökning med multikolinjäriteten i modellen. Därmed antas att tillförlitligheten är hög för modellen. Notera också att förklaringsgraden är högre i denna modell vilket betyder att modellen förklarar slutpriset bättre. Dock måste vi ta hänsyn till att endast 8 lägenheter ha sålts i stadsdelen Reimersholme vilket är väldigt få, som en konsekvens är dess standardfel högre än alla andra stadsdelar. Kovariaternas tecken i denna modell följer modell 4. Dessutom är koefficienternas storlek i princip likadana för båda modellerna. Signifikansen för samtliga kovariater är också liknande här som i modell 4. Därmed kan samma resonemang föras här som för modell 4. Modell 5 anses vara den bästa modellen för att förklara slutpriset. Beslutet baseras på att modellen uppfyller Gauss-Markov antagandena och den har störst förklaringsgrad och minsta skattade standardavvikelse för residualerna. Dessutom utelämnas inga av de viktigaste kovariaterna i modellen och att koefficienter till dessa har rimliga tecken. Vi anser att en bättre förklaringsgrad överväger existensen av multikolinjäriteten i modellen. Denna modell anses att kunna prediktera slutpriset i framtiden under förutsättningen att amorteringskrav och bolåneräntan inte förändras, eftersom dessa faktorer har en stor inverkan på bland annat efterfrågan och därmed slutpriset. Modellen är också lämpad för att betrakta procentuella prisförändringar hos slutpriset. Dock är det värt att nämna att modellen är begränsad i att endast kunna prediktera och betrakta procentuella förändringar av slutpriset för en bostadsrätt för stadsdelarna som finns med i tabell 7. Anledningen till att de övriga insignifikanta stadsdelarna var att endast få datapunkter erhölls. En bredare modell hade varit att öka antalet datapunkter i de utelämnade stadsdelarna. 27

34 6.6 Vidare studier Trots en hög förklaringsgrad hos modell 5, finns det fortfarande ungefär 7% som modellen inte kan förklara slutpriset. För att få en bättre modell skulle en utvidgning av modellen kunna göras genom att ta med faktorer som amorteringskrav, bolåneräntan, utbud och efterfrågan och tillgängligheten av hiss och balkong. Ett tungt amorteringskrav innebär en stor betalningsbelastning på köparen, vilket kan leda till att personen inte kommer vara lika villig att betala en högre summa för en bostadsrätt. En lägre bolåneränta sänker köparens kontinuerliga kostnader och på så sätt ha en större vinstmarginal om köparen till exempel skulle hyra ut sin bostadsrätt. Detta kan ses som ett incitament till att betala mer för en bostadsrätt. Faktorer som hiss och balkong är troligtvis mer betydelsefull för bostadsrätter som ligger på ett högre våningsplan. 28

35 7 Slutsats Modellerna till försök 1,2 och 3 tenderar att ha heteroskedasticitet. Detta strider emot de nödvändiga antaganden som en multipel linjär regression kräver. På grund av detta förkastades dessa modeller. Modellerna till försök 4 och 5 uppfyller Gauss-Markov antagandena och därmed anses vara tillförlitliga för att kunna prediktera och betrakta procentuella förändringar hos bostadsrättspriset i Stockholms innerstad. Slutpriset på en bostadsrätt påverkades inte av när på året bostadsrätten såldes för samtliga modeller. Av dessa 2 modeller utsågs modell 5 till den bästa framtagna modellen. Däremot kunde modellen inte prediktera eller betrakta de procentuella förändringarna i slutpriset på bostadsrätter i alla de ursprungliga stadsdelarna som fanns med. Detta är dels på grund av att få bostadsrätter hade sålts från de uteslutna stadsdelarna, vilket bidrog till deras insignifikans i modellen. Vissa stadsdelar som visades vara signifikanta för modellen hade få datapunkter. Därmed kan skattningen av dessa koefficienter ha eventuella fel, vilket man måste ta hänsyn till. Som det nämndes i sektion 6.6 har faktorer som utbud och efterfrågan, amorteringskravet och bolåneräntan också stor inverkan slutpriset på en bostadsrätt. Dessa faktorer uppmuntras att tas med i vidareforskningen i ämnet för att få en bättre modell. Men givet tidsramen för detta arbete så är modell 5 en hyfsad modell för att betrakta de procentuella förändringarna för bostadsrättspriset i Stockholms innerstad och en bra prediktionsmodell under förutsättningen att bolåneräntan och amorteringskraven inte ändras. 29

36 Referenser [1] Andersson K. Nya prisrekord på stekhet bomarknad. Svenska dagbladet [Internet] apr 16. Tillgänglig på: pengar/bostad/nya-prisrekord-pa-stekhet-bomarknad_ svd [2] Economist Intelligence Unit. Best cities ranking and report [Internet] Tillgänglig på: BestCities.pdf [3] Hedlund M, Andersson F. Bankerna inför nollränta. Dagens Nyheter [Internet] jul 09. Tillgänglig på: bankerna-infor-nollranta/ [4] Kleinbaum, David G, Applied Regression Analysis and Other Multivariable Methods. 4th ed. Druid Hills, GA: Brooks/Cole Cengage Learning; 2008 [5] Lang Harald, Elements of Regression Analysis. Stockholm; [6] Studenmund A.H, Using Econometrics: A Practical Guide. 5th ed. Boston: Pearson and Addison-Wesley; [7] Wooldridge M. Jeffrey, Introductory Econometrics: A Modern Approach. 5th ed. CENGAGE Learning;

Regressionsanalys av huspriser i Vaxholm

Regressionsanalys av huspriser i Vaxholm Regressionsanalys av huspriser i Vaxholm Rasmus Parkinson Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:19 Matematisk statistik Juni 2015 www.math.su.se

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Kungliga Tekniska Högskolan Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Författare:

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys

Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys Rickard Gunnvald F-09 Patrik Gunnvald F-09 ricgun@kth.se gunnvald@kth.se Kurs SA104X Examensarbete inom teknisk

Läs mer

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta? Tentamen i Matematisk statistik, S0001M, del 1, 2008-01-18 1. Ett företag som köper enheter från en underleverantör vet av erfarenhet att en viss andel av enheterna kommer att vara felaktiga. Sannolikheten

Läs mer

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler UPPSALA UNIVESITET Matematiska institutionen Jesper ydén Matematisk statistik 1MS026 vt 2014 DATOÖVNING MED : EGESSION I den här datorövningen studeras följande moment: Enkel linjär regression: skattning,

Läs mer

NÄR SKA MAN SÄLJA SIN BOSTAD?

NÄR SKA MAN SÄLJA SIN BOSTAD? NÄR SKA MAN SÄLJA SIN BOSTAD? En multipel regressionsanalys av bostadsrätter i Stockholm Oscar Jonsson Moa Englund Stockholm 2015 Matematik Institutionen Kungliga Tekniska Högskolan Sammanfattning Projektet

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course,

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Prediktion av bostadsrättspriser i Stockholms innerstad

Prediktion av bostadsrättspriser i Stockholms innerstad Prediktion av bostadsrättspriser i Stockholms innerstad Examensarbete inom teknisk fysik, grundnivå SA104X Kandidatexamensarbete vid institutionen för KTH Matematik, avdelning Matematisk Statistik Av Ludvig

Läs mer

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Resultatet läggs in i ladok senast 13 juni 2014.

Resultatet läggs in i ladok senast 13 juni 2014. Matematisk statistik Tentamen: 214 6 2 kl 14 19 FMS 35 Matematisk statistik AK för M, 7.5 hp Till Del A skall endast svar lämnas. Samtliga svar skall skrivas på ett och samma papper. Övriga uppgifter fordrar

Läs mer

Dekomponering av löneskillnader

Dekomponering av löneskillnader Lönebildningsrapporten 2013 133 FÖRDJUPNING Dekomponering av löneskillnader Den här fördjupningen ger en detaljerad beskrivning av dekomponeringen av skillnader i genomsnittlig lön. Först beskrivs metoden

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1 Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-19 Motivering Vi motiverade enkel linjär regression som ett

Läs mer

En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden

En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Kungliga

Läs mer

Lösningar till SPSS-övning: Analytisk statistik

Lösningar till SPSS-övning: Analytisk statistik UMEÅ UNIVERSITET Statistiska institutionen 2006--28 Lösningar till SPSS-övning: Analytisk statistik Test av skillnad i medelvärden mellan två grupper Uppgift Testa om det är någon skillnad i medelvikt

Läs mer

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Statistiska analyser C2 Inferensstatistik. Wieland Wermke + Statistiska analyser C2 Inferensstatistik Wieland Wermke + Signifikans och Normalfördelning + Problemet med generaliseringen: inferensstatistik n Om vi vill veta ngt. om en population, då kan vi ju fråga

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

Föreläsning 3 Kap 3.4, 3.6, 4.2. 732G71 Statistik B

Föreläsning 3 Kap 3.4, 3.6, 4.2. 732G71 Statistik B Föreläsning 3 Kap 3.4, 3.6, 4.2 732G71 Statistik B Exempel 150 slumpmässigt utvalda fastigheter till salu i USA Pris (y) Bostadsyta Tomtyta Antal rum Antal badrum 179000 3060 0.75 8 2 285000 2516 8.1 7

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Föreläsning 7 och 8: Regressionsanalys

Föreläsning 7 och 8: Regressionsanalys Föreläsning 7 och 8: Pär Nyman par.nyman@statsvet.uu.se 12 september 2014-1 - Vårt viktigaste verktyg för kvantitativa studier. Kan användas till det mesta, men svarar oftast på frågor om kausala samband.

Läs mer

Frisörer och Faktorer

Frisörer och Faktorer Frisörer och Faktorer Seth Nielsen Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2011:1 Matematisk statistik Juni 2011 www.math.su.se Matematisk statistik

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

ARIMA del 2. Patrik Zetterberg. 19 december 2012

ARIMA del 2. Patrik Zetterberg. 19 december 2012 Föreläsning 8 ARIMA del 2 Patrik Zetterberg 19 december 2012 1 / 28 Undersöker funktionerna ρ k och ρ kk Hittills har vi bara sett hur autokorrelationen och partiella autokorrelationen ser ut matematiskt

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

Föreläsning 4. Kap 5,1-5,3

Föreläsning 4. Kap 5,1-5,3 Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet

Läs mer

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl. 09.00-13.00

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl. 09.00-13.00 Karlstads universitet Institutionen för informationsteknologi Avdelningen för statistik Tentamen i Statistik, STA A13 Deltentamen, 5p 4 januari 004, kl. 09.00-13.00 Tillåtna hjälpmedel: Ansvarig lärare:

Läs mer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2 Lunds universitet Matematikcentrum Matematisk statistik Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2 Rapporten till den här laborationen skall lämnas in senast den 19e December 2014.

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2013-01-18 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Ove

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (9 uppgifter) Tentamensdatum 2011-10-25 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Lennart

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 (2016-05-02) OCH INFÖR ÖVNING 9 (2016-05-09)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 (2016-05-02) OCH INFÖR ÖVNING 9 (2016-05-09) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 (2016-05-02) OCH INFÖR ÖVNING 9 (2016-05-09) Aktuella avsnitt i boken är Kapitel 7. Lektionens mål: Du

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF1902 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 23:E MAJ 2013 KL 14.00 19.00. Kursledare och examinator : Björn-Olof Skytt Tillåtna hjälpmedel: miniräknare, lathund

Läs mer

Uppgift 1. Deskripitiv statistik. Lön

Uppgift 1. Deskripitiv statistik. Lön Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige

Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige Simon Wallin simwal@kth.se Samuel Jangenstål samjan@kth.se Handledare: Henrik Hult Kurs: SA104X Examensarbete inom Teknisk Fysik,

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

Prediktion av villapris

Prediktion av villapris Prediktion av villapris och dess faktorers inverkan Examensarbete inom farkostteknik, grundnivå, SA105X Institutionen för Matematik, inriktning Matematisk Statistik Kungliga Tekniska Högskolan Maj 2013

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade) 5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14 KA RKUNSKAP Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc Vad vet samhällsvetarna om sin kår? STAA31 HT14 Handledare: Peter Gustafsson Ekonomihögskolan, Statistiska institutionen Innehållsförteckning

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08 Laboration 5: Regressionsanalys Syftet med den här laborationen är att du skall

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter. Laboration 5 Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter. Deluppgift 1: Enkel linjär regression Övning Under denna uppgift ska enkel

Läs mer

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018 Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018 Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B Föreläsning 4 Kap 3.5, 3.8 Material om index 732G71 Statistik B Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så

Läs mer

PM NÄTAVGIFTER Sammanfattning.

PM NÄTAVGIFTER Sammanfattning. PM NÄTAVGIFTER Uppdragsansvarig Anna Werner Mobil +46 (0)768184915 Fax +46 105050010 anna.werner@afconsult.com Datum Referens 2013-12-10 587822-2 (2a) Villaägarna Jakob Eliasson jakob.eliasson@villaagarna.se

Läs mer

Working Paper Series

Working Paper Series Working Paper Series 2008:5 Sambandet mellan arbetslöshetstid och sökaktivitet Susanna Okeke Susanna.Okeke@arbetsformedlingen.se Working papers kan laddas ned från www.arbetsformedlingen.se Arbetsförmedlingens

Läs mer

Sconesbakning. Sofi Bergdahl Anna Kers Johanna Nyberg Josefin Persson

Sconesbakning. Sofi Bergdahl Anna Kers Johanna Nyberg Josefin Persson HEMUPPGIFT Sconesbakning Sofi Bergdahl Anna Kers Johanna Nyberg Josefin Persson IEK203 Försöksplanering Institutionen för Industriell Ekonomi och Samhällsvetenskap Avdelningen för Kvalitets- & Miljöledning

Läs mer

Multipel regression och Partiella korrelationer

Multipel regression och Partiella korrelationer Multipel regression och Partiella korrelationer Joakim Westerlund Kom ihåg bakomliggande variabelproblemet: Temperatur Jackförsäljning Oljeförbrukning Bakomliggande variabelproblemet kan, som tidigare

Läs mer

Tentamen i matematisk statistik

Tentamen i matematisk statistik Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Regressionsanalys av NHL-statistik

Regressionsanalys av NHL-statistik Regressionsanalys av NHL-statistik Av Gustav Hedén gheden@kth.se Examensarbete inom teknisk fysik, grundnivå SA104x KTH Matematisk statistik Handledare Fredrik Armerin 1 Innehållsförteckning Sammanfattning:...

Läs mer

MSG830 Statistisk analys och experimentplanering - Lösningar

MSG830 Statistisk analys och experimentplanering - Lösningar MSG830 Statistisk analys och experimentplanering - Lösningar Tentamen 15 Januari 2015, 8:30-12:30 Examinator: Staan Nilsson, telefon 073 5599 736, kommer till tentamenslokalen 9:30 och 11:30 Tillåtna hjälpmedel:

Läs mer

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p) Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSLÄRA OCH STATISTIK MÅNDAGEN DEN 17 AUGUSTI 2009 KL 08.00 13.00. Examinator: Gunnar Englund, tel. 790 74 16. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

En empirisk studie om sambandet mellan inspektionsbesök och kemtvättars miljöbeteende i Stockholm

En empirisk studie om sambandet mellan inspektionsbesök och kemtvättars miljöbeteende i Stockholm En empirisk studie om sambandet mellan inspektionsbesök och kemtvättars miljöbeteende i Stockholm Författare: Anders Hed och Linda Hoff Rudhult Handledare: Adam Jacobsson EC6902 Kandidatuppsats i nationalekonomi

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 9

ÖVNINGSUPPGIFTER KAPITEL 9 ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar

Läs mer

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen 1. One-Sample T-Test 1.1 När? Denna analys kan utföras om man vill ta reda på om en populations medelvärde på en viss variabel kan antas

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

TENTAMEN KVANTITATIV METOD (100205)

TENTAMEN KVANTITATIV METOD (100205) ÖREBRO UNIVERSITET Hälsoakademin Idrott B, Vetenskaplig metod TENTAMEN KVANTITATIV METOD (205) Examinationen består av 11 frågor, några med tillhörande följdfrågor. Besvara alla frågor i direkt anslutning

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl 08.15-13.15

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl 08.15-13.15 Tentamen i Statistik, STA A och STA A13 (9 poäng) Onsdag 1 november 00, Kl 0.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Egen miniräknare.

Läs mer

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression DEGREE PROJECT, IN APPLIED MATHEMATICS AND INDUSTRIAL ECONOMICS, FIRST LEVEL STOCKHOLM, SWEDEN 2015 Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression REBECCA AXELSSON,

Läs mer

Konsekvenser av indelningar i områden för redovisning av försök i svensk sortprovning. Johannes Forkman, Saeid Amiri and Dietrich von Rosen

Konsekvenser av indelningar i områden för redovisning av försök i svensk sortprovning. Johannes Forkman, Saeid Amiri and Dietrich von Rosen Konsekvenser av indelningar i områden för redovisning av försök i svensk sortprovning Johannes Forkman, Saeid Amiri and Dietrich von Rosen Swedish University of Agricultural Sciences (SLU) Department of

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.'' Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.'' Hjälpmedel:'Valfri'räknare,'egenhändigt'handskriven'formelsamling'(4''A4Esidor'på'2'blad)' och'till'skrivningen'medhörande'tabeller.''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''

Läs mer

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram 2.1 Grundläggande matematik 2.1.1 Potensfunktioner xmxn xm n x x x x 3 4 34 7 x x m n x mn x x 4 3 x4 3 x1 x x n 1 x n x 3 1 x 3 x0 1 1

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift Regressionsanalys, baserat på Sveriges kommuner

Läs mer

Restid och resebeteende

Restid och resebeteende Lunds universitet Ht 2010 Nationalekonomiska institutionen Handledare: Jerker Holm Restid och resebeteende - Hur en minskning av tågets restid kan få flygresenärer att övergå till tåget. Författare: Max

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1 Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β

Läs mer

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Structural Equation Modeling med Amos Kimmo Sorjonen (2012-01-24)

Structural Equation Modeling med Amos Kimmo Sorjonen (2012-01-24) 1 Structural Equation Modeling med Amos Kimmo Sorjonen (2012-01-24) 1. Variabler och tänkt modell Data simulerar de som använts i följande studie (se Appendix A): Hull, J. G., & Mendolia, M. (1991). Modeling

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 2001 2012. Se följande uppslag.

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 2001 2012. Se följande uppslag. Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 1 12. Se följande uppslag. 233 Blekinge Dalarna 1 6 12 1 6 12 Gävleborg Halland 1 6

Läs mer