EN UNDERSÖKNING KRING PRISPÅVERKAN VID INRÄTTANDE AV EN NYBYGGNATION
|
|
- Bernt Håkansson
- för 8 år sedan
- Visningar:
Transkript
1 EN UNDERSÖKNING KRING PRISPÅVERKAN VID INRÄTTANDE AV EN NYBYGGNATION Kandidatexamensarbete vid KTH Matematik avd. Matematisk Statistik Handledare: Gunnar Englund Stockholm, 2013 AV Markus Andersson Nirankar Singh Kungliga Tekniska Högskolan
2
3 Abstract This report is aimed at building companies and brokers who are interested to see how the trends in prices are on older buildings, near a new construction project. It may be that it is easier for construction companies to get through the planning permission if it can be shown that the new construction projects have a positive impact on the price of existing adjacent buildings. The study may be viewed as a pilot project where this kind of reports are rare and probably not done before in Sweden. The model must be extended to more areas in order to ensure the result of higher significance. The conclusion about the study is that it is an indication of positive price impact, but the modeling and the approach has been the central focus of the study. It is likely to assume that in order to make a better model, even more factors have be taken into account. For example, it is possible that when a construction project is built, it can be improved communications to the area, new stores can be built or similar improvements, so even such aspects would be needed for a more rigorous study. iii
4 Sammanfattning Den här rapporten är riktad till byggbolag och mäklare som är intresserade av att se hur prisutvecklingen på äldre bebyggelse är kring ett nybyggnadsprojekt. Det kan tänkas att det är lättare för byggbolag att få igenom bygglov om det kan påvisas att nybyggnadsprojekt har en positiv inverkan på priset gällande närliggande byggnation. Studien får dock ses som ett pilotprojekt då arbeten av den här typen är ovanliga och troligen inte utförda tidigare i Sverige. Modellen behöver utvidgas med fler områden för att kunna säkerställa resultatet med högre signifikans. Slutsatsen kring studien är att det finns indikation på positiv prispåverkan, men modelleringen och tillvägagångssättet har varit det centrala i studien. Det är troligt att anta att för att göra en så god modell som möjligt behövs även fler faktorer beaktas. Exempelvis kan det tänkas att då ett nybyggnadsprojekt byggs, förbättras även kommunikationerna till området det kan byggas nya butiker eller motsvarande förbättringar, så även sådana aspekter skulle behövas för en mer rigorös studie. Keywords: prediktion, multipel linjär regression, nyproduktion, bostadsmarknad, Valueguard, R-programming.
5 Förord Rapporten är skriven som en del av kandidatexamensarbetet vid SCI-skolan vid Kungliga Tekniska Högskolan med Matematikinstitutionen på KTH avdelning Matematisk Statistik som beställare. Studien har utförts av Markus Andersson och Nirankar Singh, studenter på programmet Farkostteknik. Handledare under projektet har varit Gunnar Englund. Projektarbetet har bestått av fyra delar: problemformulering, datainsamling, matematisk modellering i programspråket R samt rapportskrivning. Den största utmaningen samt huvudpoängen i projektet har varit den matematiska modelleringen. Vi vill tacka vår Handledare Gunnar Englund för alla tips, råd och diskussioner under projektets gång. Vi vill även ägna ett tack till Lars-Erik Ericsson från Valueguard för hjälp med problemformulering och tillhandahållandet av data till studien. Vi vill även tacka Harald Lang på Matematikinstitutionen på KTH avd. Matematisk Statistik för hjälp med en del av modelleringen. Markus Andersson och Nirankar Singh Stockholm 2013 iv
6 Innehåll 1 Introduktion 1 2 Terminologi Regressionsanalys Antaganden Multipel linjär regression Linjär algebra Prediktion Heteroskedasticitet Breusch-Pagan Test Robust regression Multikollinearitet VIF (Variance Inflation Factor) Metod Grundekvationen Funktioner och packages i R White s Consistent Variance Estimator Analys Solna Filmstaden Filmstaden Filmstaden Resultat Råsunda Råsunda Råsunda Resultat Kungsholmen Lindhagen Lindhagen Lindhagen v
7 4.2.2 Resultat Kungsholmen innanför tullarna Kungsholmen Kungsholmen Resultat Hägersten Telefonplan Telefonplan Telefonplan Resultat Midsommarkransen och Aspudden Midsommarkrans/Aspudden Midsommar/Aspudden Resultat Diskussion Utvecklingsmöjligheter Val av programspråk Referenser 45 7 Appendix R-kod Figurer vi
8 Kapitel 1 Introduktion I det här projektet har en analys utförts där prispåverkan på närområdet varit mål för undersökning, när ett nybyggnadsprojekt byggs invid äldre bebyggelse. En datafil med ca försäljningar under åren har bearbetats i Excel och sedan importerats till R 1, där regressionsanalyser genomförts. Det är tre områden i Stockholmsregionen som har analyserats där nybyggnadsprojekt varit färdigställda år 2009; Gamla Filmstaden i Solna, Lindhagensterrassen på Kungsholmen och Telefonplan i Hägersten. Idén för att påvisa prispåverkan är genom multipel prediktion, då för var och ett av områdena genom att göra en regression på data innan nybyggnadsprojektet är färdigställt (år ) och en regression efter det är färdigställt (år ). Därefter görs en prediktion på en försäljning år 2005 och jämförs med en prediktion år 2013, indatan i prediktionen är i övrigt samma för var och ett av områdena, bortsett från försäljningsår där den tidigare modellen är styrande (medelvärden från dataurvalet har använts). De områden som har används som index för respektive område är Råsunda i Solna, Kungsholmen innanför tullarna och Midsommarkransen/Aspudden i Hägersten. Den procentuella prisökningen i närområdet till varje nybyggnadsprojekt har jämförts mot ett område något längre ifrån nybyggnadsprojektet (de områden som verkat som indexerande). Viktigt att poängtera är att endast ett urval av äldre bebyggelse (byggd innan år 2000) har tagits med i dataurvalet, på sätt har det faktumet att byggnadsår följer en icke-linjär struktur dämpats en aning. 1 R är ett programmeringsspråk för statistiska analyser 1
9 I områdena närmast nybyggnadsprojekten har prisbilden varit homogen och det har varit viktigt att välja indexerande områden på sådant sätt att prisbilden även där har varit av homogen art, för att få en så god prediktion som möjligt. Om det är så att prisbilden på urvalet varierar kraftigt uppkommer problem med så kallade outliers som försämrar kvalitén av data och kan orsaka en felaktig prediktion. Valueguard Studien har utförts i samarbete Valueguard i Uppsala som har tiilhandahållit data och hjälpt till med problemformuleringen. Valueguard arbetar för att skapa nya finansiella produkter för bostadsmarknaden. Vi tillhandahåller också analyser och informationstjänster. Som grund för många av våra produkter och tjänster ligger ett prisindex för bostäder - Nasdaq OMX Valueguard-KTH Housing Index (HOX ). HOX Index har utvecklats i samarbete med KTH, det distribueras av Nasdaq OMX och det bygger på data levererad av bl.a. Svensk Mäklarstatistik AB och Lantmäteriet
10 Kapitel 2 Terminologi 2.1 Regressionsanalys Regression är en gren inom statistiken där målet är att skapa en matematisk modell eller en funktion som anpassas efter observerad data. Man är då intresserad av om det finns linjärt samband mellan två variabler i fallet med en enkel linjär regression[1]. Vid enkel linjär regression utgår man från att en rät linje ska anpassas till uppmätt data[2]. Den enkla linjära regressionsmodellen ges av Y = X. (2.1) där 0 är skärning med y-axeln, kallas även för intercept och 1 är lutningen på den räta linjen. Den beroende och även s.k responsvariabel som påverkas är Y, medan den oberoende och förklarande variabeln som påverkar är X. Antaganden För att kunna dra slutsatsen av analysen i modellen måste vissa antaganden göras. Den linjära regressionsmodellen bygger på några grundläggande antaganden[3] som måste vara uppfyllda, som lyder: 1. Den beroende variabeln kan skrivas som en linjär funktion av K 1 stycken förklarande variabler x 2i,x 3i,...,x Ki, ett intercept 0 samt en residual i. Y i = 0 + 1i X 1i + 2i X 2i K X Ki + i (2.2) 2. Det förväntade värdet av residualen i är lika med 0. E( i )=0 (2.3) 3
11 3. Residualen i är homoskedastisk; i har samma varians för alla i. 2 = Var( i ) (2.4) 4. Residualen i har en normalfördelning. i N(0, 2 ) (2.5) Multipel linjär regression Linjär algebra När det är två eller fler förklarande variabler i en modell tillämpar man multipel regression. Det är en teknik med vilken man kan undersöka om det finns ett statistiskt samband mellan en responsvariabel Y och de förklarande variablerna X i där i =1...n. Den multipla linjära regressionsmodellen ges av Y = X X n X n + e (2.6) där e är feltermen, som även kallas för residualen. De estimerade koefficienterna ˆi i =1...n, skattas med OLS estimering (Ordinary Least Squares) av genom matrisoperationer. ˆ =(X t X) 1 X t Y (2.7) 2 Y = 6 4 y 1 y 2. y n x 11 x 12 x 1k 1 x 21 x 22 x 2k X = 1 x 31 x 32 x 3k x n1 x n2 x nk 2 3 ˆ = k där ˆ är värdet av som minimerar summan av kvadraterna ê t ê = ê 2 av residualerna ê = Y X ˆ. Där även normalekvationen[13] X t ê =0används. Kovariansmatrisen för ˆ beräknas på följande sätt cov( ˆ X) =(X t X) 1 2 (2.8) 4
12 En väntevärdesriktig skattning av 2 är s 2 = 1 n k 1 ê 2 (2.9) där n står för antal observationer och k för antalet kovariater. En estimering av kovariansmatrisen blir således cov( ˆ X) =(X t X) 1 s 2 (2.10) Prediktion Den linjära modellen har flera användningsområden, där bl.a till prediktion[13]. Prediktion är en metod att estimera framtida och därmed okända värden, baserat på tidigare kända värden[14]. Med en given radvektor med förklarande variablerna X i där i =1...n, kan predikterade värden på Y estimeras med Y p genom Y p = X i ˆ (2.11) 2.2 Heteroskedasticitet Det tredje antagandet i den linjära regressionsmodellen kräver att residualen har likformig varians dvs att residualen är homoskedastisk. När det här antagandet inte uppfylls har vi något som kallas för heteroskedasticitet, d.v.s. att residualen ses som tagen ur en annan distribution för varje observation, se Figur Figur 2.2.1: En regression där heteroskedasiticitet påvisas. Residualen plottas 5
13 mot en förklarande variabel. Heteroskedasticitet kan ses visuellt i en graf där residualerna plottas mot de förklarande variabelerna, för att se om spridningen hos residualerna beror på variablerna. Heteroskedasticitet kan även visas med hjälp av en rad olika tester så som The Eyeball Test, The Goldfeld-Quandt Test, The Breusch-Pagan Test och The Whites Test. Konsekvensen med att använda en modell med data som är heteroskedastisk är att hypotesprövningar, intervallestimeringar och det kalkylerade standardfelet för minsta kvadrat estimatorerna blir felaktiga, d.v.s. att standardfelet får en bias[4]. Bias av en estimator är differansen mellan estimatorns förväntade värde och det sanna värdet av parametern som estimeras. Själva koefficienterna, d.v.s. de estimerade i påverkas inte av att modellen innehåller data som är heteroskedastisk. Breusch-Pagan Test För att testa om heteroskedasticitet finns närvarande i given data har Breusch- Pagan Test användts. Breusch-Pagan testet innebär att man estimerar modellen i ekvation (2.2) genom att göra en OLS regression på modellen för att få residualerna û. Residualerna kvadreras û 2 för att negativa värden inte ska ta ut positiva värden. Dessa residualer används i regressionen mot de förklarande variablerna (X 1,X 2,X 3...X n ). Regressionen blir då û 2 i = X X n X n + (2.12) För att avgöra om heteroskedastisitet är närvarande testar man då lutningen på variablerna mot noll. Hypotesen[5] blir således H 0 : a 1 = a 2 =... = a n =0 (2.13) H 1 : något i 6=0 där i =1...n (2.14) Om p-värdet är litet beroende på vald signifikansnivå, förkastas nollhypotesen H 0 om homoskedasticitet. Robust regression Vid misstanke om heteroskedasticitet kan två strategier användas, den första är GLS (Generalized Least Square) estimatorn[6]. GLS estimatorn har föredelen att kunna kompensera fullt ut för heteroskedasticitet och det här gör 6
14 att GLS är asymptotiskt effektivare relativt till OLS. Den stora nackdelen med GLS är att formen på heteroskedasticiteten måste vara känd, vilket kan vara svårt att veta i vissa fall. Den andra strategin är att använda metoden robust standard errors. Med den här metoden behöver man inte veta formen på heteroskedasticiteten. Vanliga OLS:en antar att residualen är oberoende och normalfördelad. Som det nämndes ovan, så gör heteroskedasticitet att standardfelet får en bias. Det här problemet löses med robust regression i det här fallet. Man kan säga att modellen estimeras med OLS, men för att estimera standardfelet används robusta standard error, som ser till att ordna de inkonsistenta standardfelen[7]. 2.3 Multikollinearitet I en regressionsmodell försöker man beskriva den beroende variabeln Y med de oberoende variablerna (X 1,X 2,X 3...X n ), men i vissa fall uppstår det ett problem då minst två eller flera av de oberoende variablerna är korrelerade med varandra. Det här kallas för multikollinearitet, problemet med det är att det inte går att skilja på effekten från de korrelerade variablerna på den beroende variabeln. Multikollinearitet beror inte på någon teoretisk eller aktuell linjär relation mellan någon regressand, utan endast på en approximativt linjär relation mellan de oberoende variablerna i just den data man har till hands. Med data från ett kontrollerad experimentet kan man eliminera multikollinearitet, men det är sällan man har den här möjligheten[15]. VIF (Variance Inflation Factor) För att ta reda på om multikollinearitet finns i aktuell data, kan korrelationsmatrisen vara användbar. Korrelationsmatrisen är kvadratisk, symmetrisk och har ettor på diagonalen p.g.a. att elementet i kolumnen är korrelerad med sig själv. Matrisen beskriver alltså korrelationen mellan de oberoende variablerna. Inversen av korrelationsmatrisen är speciellt användbar till att upptäcka multikolliniearitet, då diagonal elementen på matrisen blir varians inflations faktorer så kallade VIF i, och ges av (1 Ri 2) 1 där Ri 2 är R-kvadrat från regressionens i:te variabel. R-kvadrat förklarar om hur verkligt det är att variablerna är beroende av varandra och inte av något annat[8]. VIF-värdet beräknas för varje variabel (X 1,X 2,X 3...X n ) och, om modellen i ekvation (2.2) betraktas kan VIFvärden generellt beräknas[9] på följaden sätt: För varje oberoende variabel X k där k =1...n beräknas VIF-värdet genom 7
15 att ha den oberoende variabeln i vänster-ledet och sedan utföra OLS. Det här görs för alla variabler. om k =1: Sedan beräknas VIF i genom X 1 = X k X k +. (2.15) VIF i = 1 (1 R 2 i ) (2.16) Tumregeln säger att om det erhållna värdet av VIF i > 10 indikerar att aktuell data har skadlig multikollinearitet. När given data innehåller multikollinearitet påverkar det variansen på de OLS estimerade parametrarna till de multikollineara variablerna, det här p.g.a att det inte finns tillräckligt med variation i variabeln för att kunna visa vilken effekt den har på den beroende variabeln [10]. Högre korrelation mellan de oberoende variablerna ger mindre information till OLS regressionen för att estimera parametrarna, vilket leder till högre varians. Multikollinaritet går att ordna till genom att antingen tillföra mer information/mer data eller bortse från faktumet att multikolliniearitet finns. Genom att tillföra mer data ökar man informationen för OLS estimatorn som leder till att variansen minskar, multikolliniaritet är ett data problem och genom att tillföra mer data som inte innehåller multikolliniearietet minskar man problemet med det. Det går även att ta bort en förklarande variabel i modellen för att bryta korrelationen mellan två eller flera variabler, den andra metoden är att inte göra någonting[10]. 8
16 Kapitel 3 Metod 3.1 Grundekvationen Den data som analysen grundar sig på har tillhandahållits från Valueguard med stycken försäljningar i Stockholmsregionen mellan åren Ur det här datasetet har en selektion av sex olika områden, (tre nära ett nybyggnadsprojekt samt tre indexerande områden) vid två olika tidsperioder. Vid undersökning av prispåverkan på äldre bebyggelse vid inrättandet av en nybyggnation, samt det indexerande området, har en och samma grundekvation använts. Anledningen varför en och samma grundekvation har använts är att totalt tolv olika modeller har jämförts och grundekvationen kan ses som en gemensam nämnare mellan modellerna. Kovariaterna som ingår i grundekvationen är de viktigaste komponenterna vid prissättning av en bostadsrätt. log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 + (b year) 7 +(year nr) 8 + (3.1) Förklaring av variabler och förväntat tecken på deras estimerade koefficient ˆ : log t price = försäljningspriset logaritmerat (det här för att dämpa effekten av hetroskedaticitet) h area = bostadens area, förväntat tecken + 9
17 monthlyf ee h area = månadsavgift per kvadratmeter, förväntat tecken h rooms = antalet rum i bostaden, förväntat tecken + h floor no elevator = bostadens våningsplan när det inte finns hiss i fastigheten, förväntat tecken h floor elevator = bostadens våningsplan då det finns hiss i fastigheten, förväntat tecken + b elevator = en dummyvariabel, 1 om det finns hiss i fastigheten, 0 om det inte finns hiss, förväntat tecken + b year = byggnadsår, förväntat tecken (det här är approximativt eftersom max(b year) = 2000, med lägst prisnivå ~-60,-70-tal) year nr = försäljningsår, förväntat tecken + Det hade varit önskevärt att ha med kovariaten balkong i grundekvationen. Tyvärr var kvaliteten av informationen kring det bristfällande i datasetet, därav togs kovariaten balkong bort från grundekvationen. Inledningsvis användes variabeln monthlyfee, d.v.s. månadsavgift som en förklarande variabel. Problemet som uppstod då var att månadsavgiften och bostadens area var korrelerade. För att kringgå det här faktumet, transformerades variabeln till monthlyfee_h_area d.v.s. månadsavgift per kvadratmeter. I övrigt har transformationer av de förklarande variabler som uppvisat fel förväntat tecken utförts genom att lägga till kvadrerade variabler i de regressionsmodeller där problemen uppstått. Det förväntade tecknet på b year är approximativt negativt eftersom det endast tagits med objekt som är byggda innan år 2000 och den absoluta majoriteten av alla objekt i urvalet av områden är byggda på 1950-talet och tidigare. I analysen av det indexerande området Midsommarkransen/Aspudden upptäcktes outliers år Ett tiotal objekt hade väldigt låga kvadratmeterpriser, så låga som kr/kvm medan de övriga objekten samma år hade kvadratmeterpriser mellan kr/kvm. Objekt på samma adress där de låga priserna var närvarande år 2005 låg i normal prisnivå såväl 2007 som Det är troligt att anta att en ombildning har skett i de fastigheter där de onormalt låga priserna var närvarande år 2005, problemet löstes genom att utesluta de outliers som orsakade problem ur den data som använts i området. Ett annat problem vid selektion av data till de områden, där analyser utförts, har varit att välja ut den data som önskats med hjälp av kartkoordinater. 10
18 I vissa fall, exempelvis vid selektion av data i området Midsommarkransen/Aspudden kom objekt från Nybodahöjden i Liljeholmen med i urvalet p.g.a. att dess geografiska närhet. Problemet som uppstod i det här fallet var att det var stora variationer både prismässigt och arkitektoniskt samt att området är beläget på andra sidan av Essingeleden i jämförelse med Midsommarkransen/Aspudden. Även i ett fall som det här har de objekt som legat utanför ramarna av det definierade området plockats bort även i det här fallet, då de gav alldeles för lågt predikterat värde av ett typobjekt. Ett problem som uppstått vid hanteringen av data var att det i vissa fall behövde datan tvättas, d.v.s. att våningsplanet stod skrivet i fel kolumn, information kring hurvida det finns hiss eller inte i fastigheten behövdes korrigeras. Det var oftast inget problem, eftersom information kring fastigheten fanns på objekt med samma adress eller gata. Det var dock relativt tidskrävande att gå igenom flera tusen objekt Funktioner och packages i R De funktioner som har använts i regressionsanalysen har varit lm, summary (då det inte funnits hetroskedasticitet), bptest, vif samt en funktion som heter summaryr 1 som ger rätt standardavvikelser och signifikans på de skattade parametrarna när heteroskedasticitet är närvarande. Exempel på hur analysen för de olika områdena finns visat i appendix. De packages som varit nödvändiga för att utföra den analys som krävts i projektet har varit AER (Applied Econometrics with R), datasets, graphics, grdevices, methods, stats och utils White s Consistent Variance Estimator Vid faktumet av heteroskedasticitet påverkas standardavvikelserna och signifikansen av de estimerade koefficienterna i. Algebraiskt tas kovariansmatrisen Cov( ˆ) fram på följande sätt[13]. Cov( ˆ) =(X t X) 1 ( nx ê 2 i x t ix i )(X t X) 1 (3.2) I programmet R används White s estimator i filen SummaryR 2 i det fall där heteroskedastisitet är närvarande. i=1 1 För SummaryR kod, se Apendix 2 Se bilaga i Apendix 11
19 12
20 Kapitel 4 Analys Utifrån de resultat som har uppkommit vid regressionsanalyserna i R har slutsatser i projektet varit möjliga. Resultaten visas i område för område, tiden före inrättandet av en nybyggnation ( ) samt tiden efter ( ). Determinationskoefficienten R 2 ligger i intervallet [0 1] och antar värdet 1 när alla residualer är lika med noll. I samtliga områden där analysen genomförts har värdena på R 2 legat över 0.8 vilket kan anses ge en god förutsättnng att göra en bra prediktion. 4.1 Solna I regressionsanalysen av området Gamla Filmstaden blev prisförändringen mellan år , 35,2% medan området vi haft som jämförbart index, Råsunda ökade under samma period 60.5% i pris. Det går därför inte att påvisa någon positiv prispåverkan i det här området. Det finns olika tolkningar av det här resultatet, det första är att det faktiskt inte har påverkat priset efter att de nya kvarteren är byggda. Dämpningen av prisutvecklingen jämfört mot index kan bero på att det som tidigare varit ett parkområde nu exploaterats. En annan teori som är mer trolig är att den prispåverkan inom närområdet till Gamla Filmstaden redan börjat ske mellan år eftersom första etappen: Filmstaden 16, bostadskvarter A, Ingrid Bergmans väg 3-23, byggdes under den här tiden, den sjunde och sista etappen i projektet färdigställdes under år 2009: Filmstaden 20, bostadskvarter E, Edvin Adolphsons väg 2-4, Viktor Sjöströms väg 2-10 [11]. Det är därför troligt att anta följande, för att ha fått ett mer statistiskt säkerställt resultat skulle perioden före nybyggnadsprojektet ha varit innan år 2002, exempelvis mellan , tyvärr har det dataurvalet som har tillhandahållits i projektet inte haft tidigare försäljningsår än 2005 vilket hade behövts för att göra en så god analys som möjligt. Det kan vara så att man 13
21 innan år 2005 när mätningarna började gick in i en kraftig prisutvecklingsfas som sedan planades ut en aning Filmstaden Filmstaden Variablerna h floor elevator samt h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen, ekvation (3.1) utförts. Ekvationen med transformerade variabler blev således: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 +(b year) 7 + (year nr) 8 +(h floor elevator) 2 9 +(h floor no elevator) (4.1) Studentized Breusch Pagan test BP = , d f = 1 0, p value = Figur 3.1.1: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 14
22 Figur 3.1.2: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 2.798e e < 2e 16 h_area 1.281e e e 06 monthlyfee_h_area 1.884e e h_rooms e e b_year 1.750e e h_floor_no_elevator 1.852e e h_floor_elevator 5.215e e b_elevator 1.340e e year_nr 1.480e e < 2e 16 I(h_floor_elevator^2) 8.622e e I(h_floor_no_elevator^2) 3.522e e Signif. codes: Residual standard error : on 104 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : on 10 and 104 DF, p value : < 2.2e 16 - De viktigaste kovariaterna i den här regressionen var h area och year nr som hade väldigt hög signifikans, h floor elevator och h floor elevator 2 påverkar även prediktionen med relativt hög signifikans[12]. Estimate är värdet på de skattade koefficienterna ˆi i =1...n, se ekvation (2.7). Std. Error är standardavvikelsen som tas fram genom att ta roten ur diagonalelementen i kovariansmatrisen se ekvation (2.8) 15
23 Pr(> t ) står för signifikansen, där ett lägre värde ger hög signifikans. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr h_floor_elevator^ h_floor_no_elevator^2 - Eftersom h area och h rooms har tämligen höga VIF-värden kan det antas att de är korrelerade en aning, det hade gått att transformera dessa variabler, exempelvis genom att kalla en variabel h area rooms dvs. kvadratmeter per rum. Men eftersom det inte var något väldigt stort värde, som VIF-värdena antog samt att grundekvationen ekvation (3.1) inte skulle avvika mellan de olika områdena bedömdes den här transformationen inte vara av betydande art. Att h floor elevator och h floor no elevator har höga VIF värden beror på att de även lagts till samma kvadrerade variabler i modellem p.g.a. att fel förväntat tecken. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (M2, newdata=preds )) Filmstaden Variablerna monthlyf ee h area samt year nr visade fel förväntat tecken efter att en regression med grundekvationen ekvation (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: 16
24 log t price = 0 +(h area) 1 +(monthlfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 + (b year) 7 +(year nr) 8 +(monthlyfee h area) 2 9+(year nr) (4.2) Studentized Breusch Pagan test BP = , d f = 1 0, p value = Figur 3.1.3: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.1.4: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max
25 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.771e e h_area 1.294e e e 15 monthlyfee_h_area 8.648e e h_rooms e e b_year 1.966e e h_floor_no_elevator 2.912e e h_floor_elevator 1.760e e b_elevator 1.193e e year_nr e e I(monthlyfee_h_area^2) 3.322e e I(year_nr^2) 9.334e e Signif. codes: Residual standard error : on 153 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : 76.6 on 10 and 153 DF, p value : < 2.2e 16 De viktigaste kovariaterna i den här regressionen var h area och h floor elevator som hade väldigt hög signifikans. VIF v a l u e s e e e e e e e e e e+07 h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr monthlyfee_h_area^2 year_nr^2 Eftersom h area och h rooms har tämligen höga VIF-värden kan det antas att de är korrelerade en aning, det hade gått att transformera dessa variabler, exempelvis genom att kalla en variabel h area rooms dvs. kvadratmeter per rum. Men eftersom det inte var något väldigt stort värde, som VIF-värdena antog samt att grundekvationen ekvation (3.1) inte skulle avvika mellan de olika områdena bedömdes den här transformationen inte vara av betydande art. Att h floor elevator och h floor no elevator har höga VIF värden beror på att de även lagts till samma kvadrerade variabler i modellem p.g.a. att fel förväntat tecken. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (M3, newdata=preds )) 18
26 Resultat Den procentuella ökningen för Filmstaden mellan år blev således = % ökning. Prediktion 2013 Prediktion 2005 = Råsunda Råsunda I modellen för den här regressionen behövdes ingen ytterligare transformation av ekvation (3.1) utföras. log t price = 0 +(h area) 1 +(monthlfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 +(b elevator) 6 +(b year) 7 +(year nr) 8 + (4.3) Studentized Breusch Pagan test BP = , d f = 8, p value = 8.566e 05 Figur 3.1.5: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 19
27 Figur 3.1.6: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.333e e < 2e 16 h_area 7.399e e e 05 monthlyfee_h_area 4.811e e h_rooms e e e 05 b_year 2.397e e e 05 h_floor_no_elevator 6.019e e h_floor_elevator 2.476e e b_elevator 4.548e e year_nr 1.754e e < 2e 16 Signif. codes: Residual standard error : on 200 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : on 8 and 200 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen var h area, year nr, monthlyf ee h area, h rooms och b year som hade väldigt hög signifikans. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr 20
28 Ovan ser man att h floor no elevator och b elevator har tämligen höga VIF-värden antas det att de är korrelerade. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (M1, newdata=preds )) Råsunda I modellen för den här regressionen behövdes ingen ytterligare transformation av ekvation (3.1) utföras. log t price = 0 +(h area) 1 +(monthlfee h area) 2 +(h rooms) 3 + (h floor no elevator 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 + (4.4) Studentized Breusch Pagan test BP = , d f = 8, p value = 8.566e 05 Figur 3.1.7: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 21
29 Figur 3.1.8: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 5.509e e h_area 6.131e e e 06 monthlyfee_h_area 5.044e e e 09 h_rooms e e e 14 b_year 1.685e e h_floor_no_elevator 1.474e e h_floor_elevator 2.721e e e 07 b_elevator 1.922e e year_nr 3.592e e e 06 Signif. codes: Residual standard error : on 309 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : on 8 and 309 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har samtliga kovariater en relativt hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr Alla VIF- värden i den här regressionen är under 10 vilket tyder på att multikollinearitetet inte är så skadligt. 22
30 Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (M1, newdata=preds )) Resultat Den procentuella ökningen för Råsunda mellan år blev således = % ökning. Prediktion 2013 Prediktion 2005 = Kungsholmen I närområdet kring Lindhagensterrassen på Kungsholmen som byggdes mellan åren , har områdena Thorildsplan och Stadshagen agerat som närområde medan Kungsholmen innanför tullarna verkat som indexerande område. I närområdet har den procentuella prisökningen mellan åren varit 73,8% medan i det indexerande området skett en 61 procentig prisökning under samma period. Det finns sådeles en stor chans att påvisa en positiv prisutveckling tack vare nybyggnadsprojektet Lindhagensterrassen. Det är dock viktigt att prisutvecklingen kan bero på andra faktorer än just att ett nybyggnadsprojekt har byggts, det kan även vara så att innerstan växer utåt och områden precis utanför tullarna närmar sig en prisnivå som objekt innanför tullarna. Det här eftersom Stockholms popularitet ökar med årlig basis och efterfrågan är större än tillgången på centralt belägna bostadsobjekt Lindhagen Lindhagen Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen, ekvationen (3.1) utförts. Ekvationen med trans- 23
31 formerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator 6 (b year) 7 +(year nr) 8 +(h floor no elevator) (4.5) R-data Studentized Breusch Pagan test BP = , d f = 9, p value = Figur 3.2.1: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.2.2: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max
32 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.643e e < 2e 16 h_area 1.469e e < 2e 16 monthlyfee_h_area 7.710e e < 2e 16 h_rooms e e b_year 2.645e e e 05 h_floor_elevator 2.092e e h_floor_no_elevator 5.265e e b_elevator 5.268e e year_nr 1.911e e < 2e 16 I(h_floor_no_elevator^2) 9.147e e Signif. codes: Residual standard error : on 367 degrees of freedom Multiple R squared : 0.877, Adjusted R squared : F statistic : on 9 and 367 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen var h area, year nr, monthlyf ee h area, h f loor elevator och b year som hade högst signifikans. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr h_floor_no_elevator^2 Att h floor no elevator och (h floor no elevator) 2 har höga VIF värden beror på att beror på att man valt att kvadrera termen på grund av fel förväntat tecken för h floor no elevator. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (m2, newdata=preds ))
33 Lindhagen Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.6) R-data Studentized Breusch Pagan test BP = , d f = 9, p value = Figur 3.2.3: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 26
34 Figur 3.2.4: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 4.816e e e 07 h_area 1.525e e < 2e 16 monthlyfee_h_area 1.378e e h_rooms e e b_year 2.053e e e 08 h_floor_elevator 9.728e e h_floor_no_elevator 3.229e e b_elevator 2.755e e year_nr 3.284e e e 12 I(h_floor_no_elevator^2) 6.336e e Signif. codes: Residual standard error : on 477 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : on 9 and 477 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen var h area, year nr, b year, monthlyf ee h area,h f loor elevator och b year som har väldigt hög signifikans. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr h_floor_no_elevator^2 Här har h floor no elevator och (h floor no elevator) 2 höga VIF värden, det beror på att de även lagts till kvadrerade term i modellen pga. fel förväntat tecken. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (m2, newdata=preds ))
35 4.2.2 Resultat Den procentuella ökningen för Lindhagen mellan år blev således = % ökning. Prediktion 2013 Prediktion 2005 = Kungsholmen innanför tullarna Kungsholmen Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.7) R-data Studentized Breusch Pagan test BP = , d f = 9, p value < 2.2e 16 Figur 3.2.5: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 28
36 Figur 3.2.6: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.010e e < 2e 16 h_area 1.069e e < 2e 16 monthlyfee_h_area 3.792e e < 2e 16 h_rooms e e < 2e 16 b_year 7.981e e e 08 h_floor_elevator 2.474e e < 2e 16 h_floor_no_elevator 6.179e e b_elevator 9.449e e year_nr 1.578e e < 2e 16 I(h_floor_no_elevator^2) 1.451e e Signif. codes: Residual standard error : on 2851 degrees of freedom Multiple R squared : 0.864, Adjusted R squared : F statistic : on 9 and 2851 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har samtliga kovariater en relativt hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr h_floor_no_elevator^2 h floor no elevator och (h floor no elevator) 2 har höga VIF värden beror på att beror på att man valt att kvadrera termen på grund av fel 29
37 förväntat tecken för h floor no elevator. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (m2, newdata=preds )) Kungsholmen Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.8) R-data Studentized Breusch Pagan test BP = , d f = 9, p value < 2.2e 16 Figur 3.2.7: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. 30
38 FIgur 3.2.8: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 5.261e e <2e 16 h_area 1.086e e <2e 16 monthlyfee_h_area 2.516e e <2e 16 h_rooms e e <2e 16 b_year 1.280e e <2e 16 h_floor_elevator 1.845e e <2e 16 h_floor_no_elevator 4.999e e b_elevator 7.107e e year_nr 3.441e e <2e 16 I(h_floor_no_elevator^2) 4.767e e Signif. codes: Residual standard error : on 3735 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : 1148 on 9 and 3735 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen är h area, monthlyf ee h area, h rooms, b year, year nr och h floor elevator som hade väldigt hög signifikans. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr 31
39 h_floor_no_elevator^2 Här har h floor no elevator och (h floor no elevator) 2 höga VIF värden, det beror på att man valt att kvadrera termen på grund av fel förväntat tecken för h floor no elevator, även b elevatorhar hög VIF-värde. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (m2, newdata=preds )) Resultat Den procentuella ökningen för Kungsholmen innanför tullarna mellan år blev således Prediktion 2013 Prediktion 2005 = = % ökning. 4.3 Hägersten Området kring Telefonplan är väldigt expansivt och flertalet nybyggnadsprojekt har påbörjats de senaste åren, ett av de största, Kv. Tvålflingan blev färdigställt år 2009 så analysen kretsar kring denna. Som indexerande område har Midsommarkransen/Aspudden verkat under den här analysen. Prisutvecklingen mellan åren har varit 83,9% i området kring Telefonplan, medan prisutvecklingen i Midsommarkransen/Aspudden har under samma tidsperiod varit 46,7%. Här finns en tydlig indikation på att nybyggnadsprojekten har haft en väldigt positiv inverkan på prisbilden Telefonplan Telefonplan Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 + R-data (h rooms) 3 +(b year) 4 +(h floor no elevator) 5 + (year nr) 6 +(h floor no elevator) (4.9) 32
40 Studentized Breusch Pagan test BP = , d f = 7, p value = Figur 3.3.1: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.2: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 3.643e e < 2e 16 h_area 1.223e e e 07 monthlyfee_h_area 1.992e e h_rooms e e b_year 1.458e e h_floor_no_elevator 1.258e e year_nr 1.897e e < 2e 16 I(h_floor_no_elevator^2) 2.686e e Signif. codes:
41 Residual standard error : on 190 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : 182 on 7 and 190 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 I den här regressionen har h area och year nr en hög signifikans. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator year_nr h_floor_no_elevator^2 Ovan ser man att h floor no elevator och (h floor no elevator) 2 har höga VIF-värden och det antas att de är korrelerade. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator year_nr > exp( predict (M2, newdata=preds )) Telefonplan Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.10) R-data Studentized Breusch Pagan test BP = , d f = 9, p value =
42 Figur 3.3.3: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.4: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 7.047e e e 06 h_area 8.887e e e 07 monthlyfee_h_area 8.700e e e 11 h_rooms e e b_year 1.509e e h_floor_no_elevator 5.691e e h_floor_elevator 3.461e e b_elevator 3.590e e year_nr 4.359e e e 08 I(h_floor_no_elevator^2) 9.561e e Signif. codes: Residual standard error : on 343 degrees of freedom 35
43 Multiple R squared : , Adjusted R squared : F statistic : on 9 and 343 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 De viktigaste kovariaterna i den här regressionen är h area, year nr, monthlyf ee h area, h rooms och h floor elevator som har väldigt hög signifikans. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr h_floor_no_elevator^2 Ovan ser man att h floor no elevator och (h floor no elevator) 2 har höga VIF-värden och det antas att de är korrelerade. Även b elevator har VIF-värde över 10. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (M2, newdata=preds )) Resultat Den procentuella ökningen för Telefonplan mellan år blev således = % ökning. Prediktion 2013 Prediktion 2005 = Midsommarkransen och Aspudden Midsommarkrans/Aspudden Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade 36
44 variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.11) Studentized Breusch Pagan test BP = , d f = 9, p value = FIgur 3.3.5: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.6: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max
45 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 4.711e e < 2e 16 h_area 1.070e e e 10 monthlyfee_h_area 7.651e e e 09 h_rooms e e b_year 4.142e e e 05 h_floor_no_elevator 4.574e e h_floor_elevator 3.401e e b_elevator 1.914e e year_nr 2.455e e < 2e 16 I(h_floor_no_elevator^2) 3.018e e Signif. codes: Residual standard error : on 92 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : on 9 and 92 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har nästan samtliga kovariater en relativ hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr h_floor_no_elevator^2 Väldigt höga VIF värden på h floor elevator och h floor no elevator. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (M4, newdata=preds )) Midsommar/Aspudden Variabeln h floor no elevator visade fel förväntat tecken efter att en regression med grundekvationen ekv (3.1) utförts. Ekvationen med transformerade 38
46 variabler blev därmed på följande form: log t price = 0 +(h area) 1 +(monthlyfee h area) 2 +(h rooms) 3 + (h floor no elevator) 4 +(h floor elevator) 5 + (b elevator) 6 +(b year) 7 +(year nr) 8 +(h floor no elevator) 2 9+ (4.12) R-data Studentized Breusch Pagan test BP = , d f = 9, p value = Figur 3.3.7: Normal Q-Q plotten påvisar att residualerna med god approximation följer en normalfördelning. Figur 3.3.8: Residualdatan illustrerad, x-axeln motsvarar logaritmerad försäljningspris. Residuals : Min 1Q Median 3Q Max 39
47 Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 8.363e e e 06 h_area 1.013e e < 2e 16 monthlyfee_h_area 2.297e e h_rooms e e e 06 b_year 3.308e e e 06 h_floor_no_elevator 8.563e e h_floor_elevator 5.128e e b_elevator 1.565e e year_nr 5.165e e e 08 I(h_floor_no_elevator^2) 1.601e e Signif. codes: Residual standard error : on 136 degrees of freedom Multiple R squared : , Adjusted R squared : F statistic : on 9 and 136 DF, p value : < 2.2e 16 Note : Heteroskedasticity consistent standard errors using White adjustment hc0 Här har nästan samtliga kovariater en relativ hög signifikas, vilket indikerar på att förklaringsgraden är hög. VIF v a l u e s h_area monthlyfee_h_area h_rooms b_year h_floor_no_elevator h_floor_elevator b_elevator year_nr h_floor_no_elevator^2 Ovan ser man att h floor no elevator och (h floor no elevator) 2 har höga VIF-värden och det antas att de är korrelerade. Även b elevator har VIF-värde över 10. Preds h_area monthlyfee_h_area h_rooms b_year h_floor_elevator h_floor_no_elevator b_elevator year_nr > exp( predict (M4, newdata=preds ))
48 4.3.4 Resultat Den procentuella ökningen för Midsommarkransen/Aspudden mellan år blev således Prediktion 2013 Prediktion 2005 = = % ökning. 41
49 42
50 Kapitel 5 Diskussion 5.1 Utvecklingsmöjligheter Studien skall ses som en pilotstudie där det visat sig finnas indikation på positiv prispåverkan på närområdet vid ett nybyggnadsprojekt. Avsaknaden av liknande studier i ämnet gör lösningsmetoden än mer intressant. I två av de tre områden (Lindhagensterrassen och Telefonplan) där undersökningen genomförts har resultatet visat att så varit fallet, i det tredje (Filmstaden i Solna) kunde ingen positiv prispåverkan påvisas. I Filmstadens fall fanns många bra objekt att analysera men tidsspannet på datan ( ) började troligtvis för sent. För att få högre statistisk signifikans i rapporten och dra fördjupade slutsatser hade fler områden behövts undersökas samt att försäljningsdatan hade behövt täcka ett längre tidsspann än år Fler städer än Stockholm skulle varit intressant att bearbeta. Metoden som använts i undersökningen kan användas för om intresse finns i en större studie som skulle kunna vara rikstäckande. Den viktigaste aspekten har varit att bygga sofistikerade modeller ut efter konstens alla regler. 5.2 Val av programspråk Det har varit väldigt smidigt att arbeta med modelleringen i R i synnerhet efter att RConsole installerats, en nackdel har dock varit att R har svårt att hantera stora datamängder (filer med mer än rader) varvid Excel var till stor hjälp vid selektion av data till de olika områdena som har analyserats. Vi rekommenderar ändå alla som är intresserade av att göra statistiska analyser att testa på R, dels för att det är väldigt användarvänligt och även freeware vilket implicerar att man alltid kommer ha tillgång till programmet. 43
51 Det är dock viktigt att poängtera att för att utföra olika operationer i programmet behövs olika packages installeras, det här för att ingen onödig datakapacitet skall behövas tas upp i minnet, det kan till en början verka något krångligt men eftersom programmet är så snabbt och effektivt vägs fördelarna lätt upp emot nackdelarna. 44
52 Kapitel 6 Referenser [1] Chalmers Tekniska Högskolan kurs Matematisk statistik för K (TMA073) den 20/ [2] den 18/ [3] Westerlund, Joakim Introduktion till ekonometri LUND, studentlitteratur; 2005 [4] den 22/ [5] Washington University in St. Louis. Lecturer Mallory Leung den 19/4 [6] Queen s University, Instructor: Mike Abbott Lecture notes [7] Gary King and Margaret Roberts How Robust Standard Errors Expose Methodological Problems They Do Not Fix den 29/ [8] PIM5-projekt av Maria Törnblom, Örebro , den 3/ trendlinje-och-r-vaerde [9] den 22/ [10] Peter Kennedy A guide to econometrics Edition 6, Förlag: Wiley- Blackwell, Utgiven:
53 [11] SOLNA STAD den 26/ arkitektur-i-solna/rasunda/ny-bebyggelse-i-filmstaden/ [12] Karin Dahmström Från datainsamling till rapport - att göra en statistisk undersökning upplaga 5, Förlag: Studentlitteratur, Utgiven: , ISBN13: [13] Harald Lang Tropics on Applied Mathematical Statistics july 2013, version 0.93 [14] Prediktion den 8/ [15] Multikollinearitet den 22/ Programvara The R Project for Statistical Computing- Version R is a free software environment for statistical computing and graphics Microsoft Exel- Kalkylbladsprogram från Microsoft Corporation 46
54 Kapitel 7 Appendix 7.1 R-kod ## 3 0 0m f i l m s t a d e n b e f o r e M2 < lm( log_t_price~h_area + monthlyfee_h_area + h_rooms + b_year + h_floor_no_elevator + h_floor_elevator + b_elevator + year_nr + I(h_floor_elevator^2) +I(h_floor_no_elevator^2)) summary(m2) bptest(m2) vif(m2) preds < data. frame(h_area=55, monthlyfee_h_area=2800/55, h_rooms=2, b_year=1949, h_floor_elevator=3, h_floor_no_elevator=0, b_elevator=1, year_nr=2005) cat("the predicted value of an apartment in filmstaden year 2005, with indata preds") exp( predict (M2, newdata=preds )) Koden nedan är med kommandot ## R å s u n d a b e f o r e, l o a d R a s u n d a _ b e f o r e. RData b e f o r e u s i n g commands summary(m1) bptest(m1) summaryr. lm (M1, type=c (" hc0 " ) ) vif(m1) preds < data. frame(h_area=60, monthlyfee_h_area=2600/60, h_rooms=2, b_year=1935, h_floor_elevator=2, h_floor_no_elevator=0, b_elevator=1, year_nr=2005) preds cat("the predicted value of an apartment in Råsunda year 2005, with indata preds") exp( predict (M1, newdata=preds )) 47
55 Author : John Fox Source : http :// r n4. nabble.com/r extend summary lm for hccm td html Adapted by Tony Cookson. Only Change Made: Changed the name of the function ( unwisely maybe) to summaryr from summaryhccm.lm. I also changed the spelling of consistent summaryr. lm < function(model, type=c("hc3", "hc0", "hc1", "hc2", "hc4"),...){ } if (! require(car)) stop("required car package is missing.") type < match. arg ( type ) V< hccm( model, type=type ) sumry < summary( model ) table < coef(sumry) table [,2] < sqrt(diag(v)) table [,3] < table [,1]/ table [,2] table [,4] < 2 pt(abs( table [,3]), df. residual (model), lower. tail=false) sumry$coefficients < table p < nrow( table ) hyp < cbind (0, diag(p 1)) sumry$fstatistic [1] < linearhypothesis(model, hyp, white. adjust=type)[2,"f"] print(sumry) cat("note: Heteroskedasticity consistent standard errors using White adjustment", type, "\n") 7.2 Figurer Figur 6.2.1: Området Filmstaden och Råsunda i Solna stad. 48
56 Figur 6.2.2: Området Lindhagen och Kungsholmen innanför tullarna i stadstelsområde Kungsholmen. Figur 6.2.3: Området Telefonplan och Midsommarkransen/Aspudden i stadsdelen Hägersten. 49
Prediktion av bostadsrättspriser i Stockholms innerstad
Prediktion av bostadsrättspriser i Stockholms innerstad Examensarbete inom teknisk fysik, grundnivå SA104X Kandidatexamensarbete vid institutionen för KTH Matematik, avdelning Matematisk Statistik Av Ludvig
Multipel Regressionsmodellen
Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b
STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.
MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet
732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris
10.1 Enkel linjär regression
Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population
Linjär regressionsanalys. Wieland Wermke
+ Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån
Regressions- och Tidsserieanalys - F4
Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer
Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna
Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20
732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Regressionsanalys av lägenhetspriser i Spånga
Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016
1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell
Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning
NÄR SKA MAN SÄLJA SIN BOSTAD?
NÄR SKA MAN SÄLJA SIN BOSTAD? En multipel regressionsanalys av bostadsrätter i Stockholm Oscar Jonsson Moa Englund Stockholm 2015 Matematik Institutionen Kungliga Tekniska Högskolan Sammanfattning Projektet
1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet
1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att
1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet
1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.
Laboration 3: Enkel linjär regression och korrelationsanalys
STOCKHOLMS UNIVERSITET 13 februari 2009 Matematiska institutionen Avd. för matematisk statistik Gudrun Brattström Laboration 3: Enkel linjär regression och korrelationsanalys I sista datorövningen kommer
LABORATION 3 - Regressionsanalys
Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys
F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Prediktion av villapris
Prediktion av villapris och dess faktorers inverkan Examensarbete inom farkostteknik, grundnivå, SA105X Institutionen för Matematik, inriktning Matematisk Statistik Kungliga Tekniska Högskolan Maj 2013
Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION
KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat
Skrivning i ekonometri torsdagen den 8 februari 2007
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)
732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29
732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann
Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp
Sänkningen av parasitnivåerna i blodet
4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet
Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN
Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två
Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,
Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet
Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.
Statistik B Regressions- och tidsserieanalys Föreläsning 1
Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs
STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys
STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består
Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013
Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas
F13 Regression och problemlösning
1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell
Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data
Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler
Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).
Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta
Mälardalens Högskola. Formelsamling. Statistik, grundkurs
Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken
LABORATION 3 - Regressionsanalys
Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet
Skrivning i ekonometri lördagen den 29 mars 2008
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan
Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression
Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk
Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA
Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information
Övningshäfte till kursen Regressionsanalys och tidsserieanalys
Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande
Analys av bostadsrättspriset i Stockholms innerstad
Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik
Föreläsning 12: Linjär regression
Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera
Grundläggande matematisk statistik
Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,
Regressions- och Tidsserieanalys - F7
Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys
Lösningar till SPSS-övning: Analytisk statistik
UMEÅ UNIVERSITET Statistiska institutionen 2006--28 Lösningar till SPSS-övning: Analytisk statistik Test av skillnad i medelvärden mellan två grupper Uppgift Testa om det är någon skillnad i medelvikt
Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval
Laboration 4 R-versionen
Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 VT13, lp3 Laboration 4 R-versionen Regressionsanalys 2013-03-07 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner
Finansiell statistik. Multipel regression. 4 maj 2011
Finansiell statistik Föreläsning 4 Multipel regression Jörgen Säve-Söderbergh 4 maj 2011 Samband mellan variabler Vi människor misstänker ofta att det finns många variabler som påverkar den variabel vi
LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29
UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN
Laboration 2 multipel linjär regression
Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera
F11. Kvantitativa prognostekniker
F11 Kvantitativa prognostekniker samt repetition av kursen Kvantitativa prognostekniker Vi har gjort flera prognoser under kursen Prognoser baseras på antagandet att historien upprepar sig Trenden följer
Metod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
Övningshäfte till kursen Regressionsanalys och tidsserieanalys
Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström April 8, 2011 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande
Finansiell statistik
Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs
Medicinsk statistik II
Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning
a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal
En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.
En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar
Repetitionsföreläsning
Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning
Uppgift 1. Deskripitiv statistik. Lön
Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot
Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
Analys av reporäntans påverkan på prissättningen av bostäder
DEGREE PROJECT, IN APPLIED MATHEMATICS AND INDUSTRIAL ECONOMICS, FIRST LEVEL STOCKHOLM, SWEDEN 2015 Analys av reporäntans påverkan på prissättningen av bostäder SLÅR REPORÄNTEFÖRÄNDRINGAR LIKA MYCKET PÅ
Laboration 2: Styrkefunktion samt Regression
Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens
Korrelation och autokorrelation
Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.
34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD
6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller
Analytisk statistik. Mattias Nilsson Benfatto, PhD.
Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik
Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14
STOCKHOLMS UNIVERSITET MT 5001 MATEMATISKA INSTITUTIONEN TENTAMEN Avd. Matematisk statistik 13 januari 2014 Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14 Examinator: Martin Sköld, tel.
Regressionsanalys av huspriser i Vaxholm
Regressionsanalys av huspriser i Vaxholm Rasmus Parkinson Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:19 Matematisk statistik Juni 2015 www.math.su.se
7.5 Experiment with a single factor having more than two levels
7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan
Skrivning i ekonometri lördagen den 25 augusti 2007
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA10:3 Skrivning i ekonometri lördagen den 5 augusti 007 1. Vi vill undersöka hur variationen i ölförsäljningen i ett bryggeri i en stad i USA
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen
Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course,
Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B
Föreläsning 4 Kap 3.5, 3.8 Material om index 732G71 Statistik B Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så
En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:
1 Uppgiftsbeskrivning Syftet med denna laboration var att utifrån uppmätt data avgöra: (i) Om något samband finnes mellan kroppstemperatur och hjärtfrekvens. (ii) Om någon signifikant skillnad i sockerhalt
Läs noggrant informationen nedan innan du börjar skriva tentamen
Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip Tentamensdatum 2013-03-27
Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4
MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas
LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING
LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga
TVM-Matematik Adam Jonsson
TVM-Matematik Adam Jonsson 014-1-09 LABORATION 3 I MATEMATISK STATISTIK, S0001M REGRESSIONSANALYS I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistikprogrammet
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB2 Skrivning i ekonometri onsdagen den 1 juni 211 1. Vi vill undersöka hur variationen i försäljningspriset för ett hus (i en liten stad i USA
En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden
En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Kungliga
TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS
STOCKHOLMS UNIVERSITET Statistiska institutionen Marcus Berg VT2014 TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS Fredag 23 maj 2014 kl. 12-17 Skrivtid: 5 timmar Godkända hjälpmedel: Kalkylator utan
Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA
Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA Statistiska tester bygger alltid på vissa antaganden. Är feltermen homoskedastisk? Är den normalfördelad? Dessa antaganden är faktiskt aldrig uppfyllda i praktiken,
Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012
Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden
Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.
Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:
Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,
Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik, 7,5 hp. Tid: Lördag den 18 april 2009, kl 14:00-18:00 Väg och vatten Examinator: Olle Nerman, tel 7723565. Jour: Frank Eriksson,
Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT
Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur
Matematisk statistik, Föreläsning 5
Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall
Skrivning i ekonometri lördagen den 15 januari 2005
LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA102:3 Skrivning i ekonometri lördagen den 15 januari 5 1. Vi vill undersöka hur variationen i försäljningspris = price för hus i en liten stad
Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval
Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande
Tentamen för kursen. Linjära statistiska modeller. 22 augusti
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus
Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.
Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: 732G71 Statistik B 2015-12-09, 8-12 Bertil Wegmann
Regressionsanalys med SPSS Kimmo Sorjonen (2010)
1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;
Tentamen i matematisk statistik
Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:
1 Förberedelseuppgifter
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 2 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02 Syfte: Syftet med dagens laborationen är att du skall: bli
Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.
Tentamen Linköpings universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: 732G71 Statistik B 2017-12-08, 8-12 Bertil Wegmann