Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Storlek: px
Starta visningen från sidan:

Download "Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm"

Transkript

1 Kungliga Tekniska Högskolan Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Författare: Lovisa Jangenstål Susanna Kaas Handledare: Gunnar Englund May 15, 2013

2 Förord Denna rapport är en kandidatexamensuppsats i Teknisk Fysik på Kungliga Tekniska Högskolan. Arbetet genomfördes på Institutionen för Matematisk Statistik och omfattar 15 högskolepoäng. Vi vill rikta vår tacksamhet till vår handledare, Universitetslektor Gunnar Englund, för hans mycket värdefulla rådgivning och vägledning. Vi vill även tacka Matti Svantesson, IT-chef på Fastighetsbyrån, som gjort vårt arbete möjligt maj 2013

3 Sammanfattning I denna rapport används multipel linjär regressionsanalys för att analysera hur ett antal variabler påverkar bostadsrättspriser i stor-stockholm. Modeller framställs för Innerstaden, Västerort och Söderort separat. Dessa modeller var baserade på data som hämtats från Fastighetsbyrån och kompletteras med avstånd hämtade från Google Maps. Datamaterialet består av försäljningar av bostadsrätter i november år 2011 och För varje enskild variabel testas validiteten och variablernas inverkan på slutpriset diskuteras. Det konstrueras dels regressionsmodeller som är additiva och även sådana som betraktar procentuella förändringar. Resultatet blev tre modeller med förklaringsgrader på 50-90% för respektive modell. Modellerna som bäst beskriver slutpriset i respektive delområde betraktar endast procentuella förändringar då de additiva modellerna inte gav resultat som uppfyller antagandena för multipel regressionsanalys. Den modell med högst förklaringsgrad och minst residualer var den för Innerstaden då detta område är det mest homogena av de tre delområdena. May 15,

4 Abstract In this report multiple linear regression was used to analyse how a number of variables affects the final prices of apartments in Stockholm. Different regression models were constructed for three subregions of Stockholm. These models were based on data material collected from Fastighetsbyrån and complemented by distances from Google Maps. The data material consists of apartments sold in November 2011 and The validity is tested for every single variable and the affect on the final price is discussed. Some regression models were linear and other models were exponential models that only consider percentage changes. The result was three models with the coefficient of determination between 50 % and 90 % for respective model. The best models to describe the final price in the three different parts of Stockholm is the models that considers the percentage changes. The regression model with the highest coefficient of determination is the one for Stockholm city because this region is the most homogeneous of the three ones maj 2013

5 Innehåll 1 Inledning 8 2 Bakgrund Syfte Metod Multipel linjär regressionsanalys Standardiserade koefficienter t-test Förklaringsgrad AIC och BIC Multikolinjäritet VIF Heteroskedasticitet p-värde Modellval Variabelselektion Forward selection Backward elimination Stegvis regression Transformering av variabler PP-diagram Kvalitativa och kvantitativa variabler Variabler maj

6 4.1 Beskrivning av datamaterialet Avgränsning Hypotes Genomförande 19 6 Resultat Söderort Försök 1 - stegvis regression Försök 2 - logaritmerad responsvariabel Västerort Försök 1 - stegvis regression Försök 2 - regression Försök 3 - logaritmerad responsvariabel Innerstaden Försök 1 - stegvis regression Försök 2 - regression med extraterm Försök 3 - regression med extraterm Försök 4 - logaritmerad responsvariabel Diskussion Analys av modellerna Söderort Västerort Innerstaden Utvärdering av resultaten maj 2013

7 8 Slutsats 43 9 Appendix maj

8 1 Inledning Priset på en bostadsrätt kan bero på många olika faktorer. Några av dessa är boarea, avgift, närhet till stadskärna, pendlingstid och antal rum. Målet med denna rapport är att med multipel linjär regressionsanalys undersöka hur mycket dessa faktorer påverkar slutpriset hos bostadsrätter. Är det möjligt att modellera slutpriset på en bostadsrätt med dessa faktorer som variabler? 2 Bakgrund Bostadsrättspriser är ständigt ett aktuellt ämne. Varje vecka publiceras de senaste rönen angående läget på bostadsmarknaden och varje söndag kommer Dagens Nyheters bostadsdel i brevlådan. Priset på en bostadsrätt har under de senaste åren skjutit i höjden, inte minst i Stockholmsområdet. Vid köp av en bostadsrätt är det intressant att känna till hur olika egenskaper påverkar dess pris och detta skall undersökas i denna rapport. 2.1 Syfte Syftet med detta arbete är att med statistiska modeller undersöka hur ett antal faktorer påverkar slutpriset på en bostadsrätt. 3 Metod 3.1 Multipel linjär regressionsanalys Om en responsvariabel, y, beror på flera förklarande variabler x 1,..., x n används multipel linjär regressionsanalys. Responsvariabeln kan approximeras med modellen y i = β 0 + β 1 x 1i + β 2 x 2i β n x ni + ɛ i, i = 1, 2,..., k (1) där y i är den i:te observationen av responsvariabeln y. Den observerade responsvariabelns väntevärde beror på variablerna x 1i,..., x ni som är de i:te observationerna av de förklarande variablerna x 1,..., x n. Koefficienterna till modellen betecknas β 0,..., β n. Den första koefficienten β 0 kallas interceptet 8 15 maj 2013

9 och representerar den konstanta termen i modellen. Feltermen i modellen ovan betecknas ɛ i och är skillnaden mellan det observerade och det förväntade y-värdet för en observation. Felen bör vara sinsemellan oberoende vid varje observation och även normalfördelade N(0, σ 2 ). [1] I matrisnotation kan sambandet ovan skrivas: Y = Xβ + ɛ (2) där y 1 1 x 11 x n1 β 0 ɛ 1 y 2 Y =., X = 1 x 12 x n2....., β = β 1.., ɛ = ɛ 2. (3) 1 x 1k x nk β n ɛ k y k För att bestämma ˆβ, de skattade värdena på koefficienterna β, används minstakvadratmetoden: ˆβ = S 1 X T Y (4) där S = X T X Därmed fås modellen för det skattade y i : ŷ i = ˆβ 0 + ˆβ 1 x 1i + ˆβ 2 x 2i + + ˆ β n x ni (5) Viktigt är att skilja på felterm och residual. Feltermen betraktas endast i teorin, medan residualen definieras som skillnaden mellan det verkliga värdet på y i och det skattade värdet ŷ i : [2] e i = y i ŷ i (6) Residualen kan betraktas som en skattning av feltermen och därför ges felen i modellerna senare i rapporten som residualer. Då medelvärdet av residualerna skall vara noll betraktas residualernas skattade standardavvikelse för att finna de skattade felen i modellerna. [3] 15 maj

10 3.1.1 Standardiserade koefficienter Vid multipel regressionsanalys är det relevant att undersöka hur betydelsefulla de enskilda förklarande variablerna är för modellen. En metod är att betrakta de standardiserade regressionskoefficienterna. Före regressionen standardiseras samtliga variabler, även responsvariabeln, genom att subtrahera variabelns medelvärde och dividera med dess standardavvikelse. De standardiserade regressionskoefficienterna representerar då förändringen som resulterar ur ändringen av en standardavvikelse i en förklarande variabel. Standardiserade koefficienter är enhetsoberoende och kan därför direkt jämföras med varandra utan att ta hänsyn till enheter. [5] t-test Hypotestester används för att kontrollera om de beräknade β-koefficienterna är riktiga för den framtagna modellen. Ett t-test är en form av hypotestest som testar hypoteser för en regressionskoefficient i taget. Ett tvåsidigt t-test undersöker om någon β-koefficient egentligen bör vara noll, vilket innebär att den motsvarande förklarande variabeln inte bör ingå i modellen. Värdet som inte förväntas är det som väljs som nollhypotes H 0, medan det förväntade värdet sätts som mothypotes H A. Matematiskt ser hypotesen ut på följande sätt: H 0 : β = 0 H A : β 0 (7) För att beräkna t-värdena för en modell måste feltermerna i regressionsanalysen vara normalfördelade. För varje skattad koefficient ˆβ j i ekvation (5) beräknas därför motsvarande t-värde enligt: t j = ˆβ j SE( ˆβ j ) j = 1, 2.., n (8) Här är ˆβ j den minstakvadratskattade regressionskoefficienten för den j:te förklarande variabeln x j. Den skattade standardavvikelsen för ˆβ j betecknas SE( ˆβ j ). Förutsättningarna för att nollhypotesen skall förkastas eller inte beror på det kritiska t-värdet t c, som i sin tur beror på antalet frihetsgrader för modellen. Antal frihetsgrader ges av k n, där k är antalet observationer och n är maj 2013

11 antalet skattade koefficienter, interceptet inte inkluderat. Regeln är sådan att nollhypotesen H 0 förkastas då t j > t c. [3] Förklaringsgrad Förklaringsgraden betecknas R 2 och är ett mått på till hur stor del de förklarande variablerna i en modell förklarar variansen i responsvariabeln. Förklaringsgraden för en modell definieras som: R 2 = Kvadratsumma regression Kvadratsumma totalt = 1 Kvadratsumma residual Kvadratsumma totalt (9) Målet är att modellen skall få en så hög förklaringsgrad som möjligt, vilket innebär att residualerna minimeras. Mindre residualer leder till ett bättre skattat värde på responsvariabeln. Förklaringsgraden ökar ju fler variabler som inkluderas i modellen. [2] AIC och BIC Ett alternativ till att använda förklaringsgraden för att bestämma vilka variabler som skall ingå i en modell är att använda Akaike s Information Criterion (AIC) och Bayesian Information Criterion (BIC). Ekvationerna till dessa modeller är: AIC = ln( Kvadratsumma residual 2(n + 1) ) + k k BIC = ln( Kvadratsumma residual ) + ln(k) n + 1 k k (10) där k är antalet observationer och n är antalet förklarande variabler. Vid jämförelse mellan två modeller beräknas AIC och BIC för vardera modell. Målet är att AIC och BIC skall minimeras. Båda dessa kriterier tenderar till att straffa en adderad förklarande variabel mer än förklaringsgraden gör. [3] Multikolinjäritet Allvarlig multikolinjäritet uppstår då förändringen av en förklarande variabel helt förklaras av ändringar i en annan av modellens förklarande variabler. 15 maj

12 Fenomenet kan upptäckas genom att grafiskt studera om ett linjärt samband existerar mellan de förklarande variablerna. En allvarlig multikolinjäritet gör att det inte går att skatta β- koefficienter då två eller fler variablers inverkan inte kan skiljas från varandra och bör därför undvikas i en regressionsmodell. Fenomenet kan också uppstå i form av att en förklarande variabel dominerar över resterade förklarande variabler. Den dominerande variabeln är då kopplad till responsvariabeln på sådant sätt att de resterade förklarande variablernas inverkan inte kommer att synas. [3] VIF Variance Inflation Factor (VIF) är ett mått som används för att kontrollerna om en variabel bidrar till multikolinjäritet i en modell. Värdet är ett index på hur mycket multikolinjäriteten har ökat variansen hos en av de skattade β-koefficienterna. Måttet beräknas genom att för varje förklarande variabel betrakta denna som en regressionsmodell av de övriga förklarande variablerna från den ursprungliga modellen. Genom att utföra en regressionsanalys för denna nya modell kan förklaringsgraden Rj 2 för den valda förklarande variabeln bestämmas. VIF definieras som: V IF ( ˆβ j ) = 1 1 R 2 j (11) Ett högt VIF indikerar att multikolinjäriteten i modellen har ökat den skattade variansen för de skattade koefficienterna relativt mycket. Detta resulterar i en minskning av t-värdet. Ett lägre t-värde medför en risk att variabeln inte blir signifikant för modellen. Ett VIF>5 innebär att det råder allvarlig multikolinjäritet. [3] Heteroskedasticitet Minstakvadratmetoden förutsätter att feltermerna ɛ i har konstant standardavvikelse, vilket innebär att homoskedasticitet råder. Om detta inte gäller kommer felaktiga skattningar på koefficienternas standardfel att genereras. Det innebär att signifikanstesterna på koefficienterna inte blir korrekta och variabler kan då felaktigt inkluderas eller exkluderas ur en modell. Detta fenomen kallas heteroskedasticitet. [3] maj 2013

13 3.1.8 p-värde Ett p-värde anger sannolikheten att vid nästa observation få ett minst lika extremt värde som det tidigare observerade värdet. Då p-värdet ligger under en viss nivå sägs resultatet vara statistiskt signifikant. Denna nivå är vanligtvis I senare delar av rapporten benämns statistiskt signifikant endast som signifikant. [2] 3.2 Modellval Det är inte självklart att alla tillgängliga förklarande variabler tillsammans förklarar modellen på ett optimalt sätt. Vad som är en optimal metod är inte uppenbart och det finns flera metoder som ger en indikation på hur väl modellen förklarar responsvariabeln samt hur mycket fel modellen ger. Det är viktigt att inte utesluta någon förklarande variabel som inverkar på responsvariabeln. Om det utesluts för många parametrar fås en sämre modell och eventuellt sämre prediktioner och parameterskattningar. Det är minst lika viktigt att inte ha för många förklarande variabler eftersom detta leder till ett större beräkningsarbete. Överflödiga variabler ger osäkrare skattningar och det kan bli mer komplicerat att tolka modellen. [2] 3.3 Variabelselektion Det finns flera modeller som bygger på att eliminera icke-signifikanta variabler i en modell. Dessa metoder kan användas för att kontrollera vilka förklarande variabler som bör ingå i en modell. Denna typ av metoder presenteras nedan Forward selection Forward selection utgår från en modell helt utan förklarande x-variabler, dvs y = β 0. Med en variabel i taget utvidgas modellen. I varje del av processen väljs den variabel som vid inkludering i modellen är mest signifikant i testet om motsvarande parameter β j = 0. Processen fortsätter så länge det finns någon variabel som är signifikant på en förut bestämd nivå att inkludera i modellen. [2] 15 maj

14 3.3.2 Backward elimination Metoden utgår i från en modell där alla förklarande variablerna är inkluderade. I varje steg av processen utesluts en variabel tills något förutbestämt villkor är uppfyllt. Processens gång är att i varje steg testa hypotesen β j = 0 för alla kvarvarande förklarande variabler x j. Proceduren stoppas om alla kvarvarande β j är signifikant skilda från noll på en förutbestämd risknivå. [2] Stegvis regression Stegvis regression är en mer avancerad version av modellval och en kombination av forward selection och backward elimination. I varje steg kontrolleras att de tidigare inkluderade variablerna i modellen ger signifikanta utslag i testet om motsvarande parameter β j = 0. Eventuella variabler som inte längre ger signifikanta utslag elimineras ur modellen. Denna modell utreder om en gammal variabel är överflödig när en ny variabel kommit in i modellen. [2] 3.4 Transformering av variabler Minstakvadratmetoden kräver inte att variablerna är linjära. Dock gäller kravet för β-koefficienterna i regressionsmodellen. Detta ger möjligheten att transformera variablerna till en annan form då det är nödvändigt. Det finns många orsaker till val av en variabels form, det kan exempelvis vara att datamaterialet har en sådan tendens. Om data är sådan att det finns ett exponentiellt beroende mellan de förklarande variablerna och responsvariabeln skall både högerledet och vänsterledet i den linjära formen, se ekvation (1), logaritmeras: ln(y) = β 0 + β 1 ln(x 1 ) + β 2 ln(x 2 ) β n ln(x n ) + ɛ (12) Denna funktionsform betraktas så att en ökning av en förklarande variabeln med 1%, samtidigt som de övriga förklarande variablerna hålls konstanta, motsvaras av en ökning av responsvariabeln med β j % Funktionen kan också väljas sådan att endast vänsterledet logaritmeras. Detta kan vara lämpligt i situationer då en ökning av en förklarande variabel medför en förändring av responsvariabeln med ökad takt. Denna funktionsform ser ut på följande sätt: maj 2013

15 ln(y) = β 0 + β 1 x β n x n + ɛ (13) För denna modell är inte β-koefficienterna konstanta. Här innebär en ökning av en förklarande variabel med 1 enhet, samtidigt som de övriga förklarande variablerna hålls konstanta, en procentuell ökning av responsvariabeln. Detta innebär att responsvariabeln ökar β 100 procent vid en ökning av en förklarande variabel med 1 enhet. Det finns också fall då regressionsmodellen behöver vara i polynomisk form, vilket innebär att en eller flera förklarande variabler är i potenser av gradtal skilda från ett. Denna modell är lämplig då en förklarande variabels inverkan på responsvariabeln har en annan tendens än den linjära. [3] PP-diagram Ett PP-diagram är en förkortning av engelskans probability-probability plot. Diagrammet används för att bestämma om en given datamängd följer någon specifik fördelning genom att plotta två kumulativa fördelningsfunktioner mot varandra. För en variabel X kan sannolikhetsfördelningen unikt beskrivas med sin kumulativa fördelningsfunktion F (x). Denna beskrivs som: [6] F (x) = P (X x) = x P (ξ)dξ (14) Grafen skall vara ungefär linjär om den specifika fördelningen är den korrekta för modellen. Figur 1 visar normalfördelade datapunkter. [7] 15 maj

16 Figur 1: Här plottas förväntad kulmutativ fördelningsfunktion mot observerad kulmutativ fördelningsfunktion i ett PP-diagram Kvalitativa och kvantitativa variabler I denna rapport används olika typer av variabler, kvalitativa och kvantitativa. Dessa variabler har olika funktion då de beskriver olika slags data. En kvantitativ variabel har ordning mellan mätvärdena och lika stora skalsteg, även kallade ekvidistanta skalsteg. Kvantitativa variabler delas i sin tur in i diskreta och kontinuerliga variabler. En kontinuerlig variabel kan anta vilket värde som helst, medan en diskret variabel bara kan anta vissa värden, exempelvis heltalsvärden. Ofta kan en diskret variabel betraktas som en kontinuerlig variabel, bara det finns ordning mellan mätvärdena och ekvidistanta skalsteg. Detta gäller för samtliga variabler i denna rapport. En kvalitativ variabel ställer upp en eller flera hypoteser, den beskriver om en variabel har en viss egenskap med svaret ja eller nej. Ett exempel är om det finns hiss i ett bostadshus eller inte. För att använda en kvalitativ variabel i regressionsanalys introduceras en indikatorvariabel som kan anta värdena noll eller ett beroende på om objektet har egenskapen (värdet ett) eller inte (värdet noll). [3] 4 Variabler Följande förklarande variabler är tänkbara att inkludera i modellen. Avgift anger avgiften till bostadsrättsföreningen i kronor maj 2013

17 Boarea är bostadsrättens area i kvadratmeter. Avstånd är avståndet till Stockholms centralstation i bilväg mätt i kilometer. Pendlingstid är tiden det tar att färdas med bil till Stockholms centralstation, mätt i minuter. Byggår är det år då fastigheten är byggd. Antal rum anger antalet rum i bostadsrätten. Responsvariabeln är: Slutpris anger det totala priset på bostadsrätten i kronor. 4.1 Beskrivning av datamaterialet Datamaterialet består av 617 bostadsrätter från Stockholmsområdet. 308 bostäder var sålda år 2011 och 309 år Samtliga försäljningar ägde rum i november. Anledningen till valet av månaden november är att det inte finns någon större högtidshelg, semesterperiod eller skolstart som kan påverka bostadsrättspriserna. Åren 2011 och 2012 representerar år där reporäntan var i princip densamma samtidigt som det inte råder någon allvarlig lågkonjunktur under denna tidsperiod. För respektive såld bostadsrätt erhölls information om adress, församling, kvadratmeterpris, slutpris, byggår och månadsavgift till bostadsrättsföreningen. Information om våningsplan erhölls för en tredjedel av bostadsrätterna. Samtligt datamaterial är hämtat från Fastighetsbyrån, förutom P endlingstid och Avstånd som mätts upp i Google Maps. Ytterligare information om variablerna presenteras i Tabell 10 i Appendix. Då datamaterialet erhölls var det uppdelat efter församling och delades sedan upp tre delar som representerar Söderort, Västerort och Innerstaden för att analysera dessa separat. Orsaken till detta är att det är skilda områden och samma variabel kan ha olika inverkan beroende på område. 4.2 Avgränsning Datamaterialet täcker inte hela Stockholmsområdet, därför har analyser endast genomförts på Söderort, Västerort och Innerstaden. Datamaterial om våningsplan saknas för nästan två tredjedelar av bostadsrätterna. Därför plockas denna variabel bort ur samtliga analyser. Orelevanta variabler som kvadratmeterpris och adress betraktades inte. 15 maj

18 4.3 Hypotes De parametar som förväntas ha negativ inverkan på slutpriset bör vara P endlingstid och Avstånd. Detta förväntas gälla för Söderort och Västerort, medan det är rimligt att dessa parametrar inte har någon inverkan alls för Innerstaden. Att en variabel har negativ inverkan innebär att dess tillhörande β-koefficient är negativ. På motsvarande sätt leder en positiv β-koefficient till att en variabel har positiv inverkan. Variabeln Avgif t förväntas ha negativ inverkan på slutpriset då en högre avgift leder till att det blir dyrare att bo i bostadsrätten. Därför bör slutpriset minska. En större boarea förväntas öka slutpriset, därför bör variabeln Boarea ha en positiv inverkan. Variabeln Byggår är svår att ställa upp några hypoteser om som är gemensamma för Västerort, Söderort och Innerstaden tillsammans. I Innerstaden kan sekelskifteslägenheter vara mer attraktiva än nybyggnationer, till skillnad från Västerort och Söderort där nybyggnationer förväntas vara attraktivare. Ett ökat antal rum bör öka priset på en bostadsrätt, därför förväntas variabeln Antal rum ha en positiv inverkan på slutpriset maj 2013

19 5 Genomförande Samtliga analyser genomfördes i statistikprogrammet SPSS. En stegvis regression i SPSS kontrollerar automatiskt att alla variabler som tas med i modellen är statistiskt signifikanta och genomför ett t-test. Dock kontrolleras inte alla variabelkombinationer eller om multikolinjäritet råder. Därför används stegvis regression endast för att få en uppfattning om vilka variabler som eventuellt är signifikanta. Resterande regressionsanalyser genomfördes manuellt genom att tvinga in valda variabler i modellerna. Först utfördes analyser av åren 2011 och 2012 separat, dock var det svårt att finna någon modell med relevanta ingående parametrar då datamaterialet var för litet. Därför utförs samtliga analyser på åren 2011 och 2012 tillsammans, men fortfarande separat för de olika Stockholmsområdena. Modeller med den förklarande variabeln Antal rum som en kontinuerlig variabel gav inga relevanta modeller då denna variabel inte så oväntat är kopplad till variabeln Boarea i samtliga delområden, se Figur 16, Figur 17 och Figur 18 i Appendix. Därför gjordes Antal rum om till en indikatorvariabel i samtliga analyser. Denna indikatorvariabel antar värdet ett för lägenheter med två rum eller färre, och värdet noll för lägenheter med fler än två rum. I hypotesen nämndes att de förklarande variablerna Avgif t och Boarea anses nödvändiga för samtliga modeller, vilket medför att de modeller som inte innehåller dessa variabler anses irrelevanta. I flertalet försök logaritmeras responsvariabeln. Som nämndes i teoriavsnittet medför detta att den procentuella ändringen av priset betraktas istället för slutpriset i kronor. Kraven för multipel linjär regression som bör vara uppfyllda för att en modell skall vara användbar är: Residualerna har konstant varians, vilket innebär att ingen heteroskedasticitet råder. Kontrolleras i residualplotten. Ett exempel på en residualplott visas i Figur 2. Residualerna skall vara jämnt fördelade kring noll om homoskedasticitet råder. Ingen förklarande variabel är en perfekt linjär funktion av en annan, vilket innebär att ingen allvarlig mulikolinjäritet råder. Kontrolleras genom att verifiera att V IF < 5 för samtliga förklarande variabler. Residualerna är normalfördelade. Kontrolleras i en PP-graf, som definieras i metodavsnittet. Följer residualpunkterna den räta linjen är deras normalfördelningskriterium uppfyllt. Residualplotten har ett slupmässigt mönster. Om så inte är fallet är det 15 maj

20 möjligt att någon variabel bör justeras och adderas som extravariabel till modellen. [3] Figur 2: Residualplott som visar att homoskedasticitet råder Samtliga residualplottar som presenteras i denna rapport visar standardiserade residualer, vilket innebär att de är dimensionslösa. Därför kan residualplottarna direkt jämföras med varandra maj 2013

21 6 Resultat 6.1 Söderort Försök 1 - stegvis regression En stegvis regression resulterade i följande modell: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avstånd) + β 3 (Avgift)+ + β 4 (Antal rum) + ɛ (15) Modellens förklaringsgrad blev R 2 = 0.51 och den skattade standardavvikelsen för residualerna cirka kr. Residualplotten för modellen visas i Figur 3 nedan. På grund av att residualernas standardavvikelse inte är konstant i figuren förmodas att heteroskedasticitet råder. Figur 3: Standardiserad residualplott för Söderort, försök 1 Figur 4 på nästa blad visar att normalfördelningsantagandet för residualerna troligtvis inte är helt uppfyllt, då datapunkterna inte följer den utritade räta linjen. 15 maj

22 Figur 4: PP-diagram för Söderort försök 1 Samtliga förklarande variabler som ingår i modellen har VIF<5, vilket tyder på att multikolinjäritet inte råder. Det innebär att de ingående förklarande variablerna är sinsemellan oberoende. Ur koefficienttabellen, Tabell 1 nedan, kan det konstateras att samtliga variabler som inkluderats i modellen är signifikant skilda från noll då deras p-värde<0.05. Genom att studera nedre och övre gränserna för konfidensintervallet i tabellen kan det konstateras att koefficienterna framför samtliga förklarande variabler har korrekt tecken då konfidensintervallen endast innehåller skattade koefficient-värden som är enbart negativa eller positiva. Det innebär att alla koefficienter antar rätt tecken och att ingen av de inkluderade variablerna bör uteslutas ur modellen. Tabell 1: Koefficienttabell för Söderort, försök 1. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel ˆβ ˆσ p-värde nedre gräns övre gräns Boarea < Avstånd < Avgift < Antal rum maj 2013

23 6.1.2 Försök 2 - logaritmerad responsvariabel På grund av residualernas stora standardavvikelse i försök 1 och för att minska eventuell heteroskedasticitet logaritmerades responsvariabeln. Därför måste detta försök tolkas procentuellt. Denna modell tvingar in de variabler som ingick i modellen från den stegvisa regressionen i försök 1. Dessa variabler förväntas vara signifikanta även då responsvariabeln är logaritmerad. Resultatet blev följande modell: log(slutpris) = β 0 + β 1 (Boarea) + β 2 (Antal rum) + β 3 (Avgift)+ + β 4 (Avstånd) + ɛ (16) eller på ekvivalent form: Slutpris = e β 0+β 1 (Boarea)+β 2 (Antal rum)+β 3 (Avgift)+β 4 (Avstånd)+ɛ (17) Förklaringsgraden för modellen blev R 2 = 0.54 och residualernas skattade standardavvikelse cirka 24 %. I Tabell 2 nedan visas att samtliga av de i modellen inkluderade variablerna är signifikant skilda från noll då p-värdet för respektive variabel är mindre än Tabellen visar även inverkan på slutpriset vid en enhetsökning av respektive förklarande variabel medan de övriga variablerna hålls konstanta. Tabell 2: Koefficienttabell för Söderort, försök 2. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel Procentuell inverkan ˆσ p-värde nedre gräns övre gräns Boarea 0.9% 0.1 % < % 1.2 % Antal rum -22.2% 5.1% < % -12.1% Avgift % <0.1 % < Avstånd -7.6% 1.0% % -5.6% Notera att variabeln Avgif t har en mycket liten procentuell inverkan på slutpriset och samtidigt är dess konfidensintervall så litet att det är svårt 15 maj

24 att tolka. Anledningen är förmodligen att variabeln är definierad i enheten kronor och en ökning av variabeln med en enhet blir en ökning med en krona, något som inte har en märkbar inverkan på slutpriset. För att kunna dra några slutsatser om variabelns inverkan ändrades enheten till tusentals kronor, kkr. Resultatet presenteras i Tabell 3 nedan. Tabell 3: Koefficienttabell för Söderort, försök 2. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel. Variabeln Avgif t är definierad i enheten kkr Procentuell inverkan ˆσ p-värde nedre gräns övre gräns Boarea 0.9% 0.1 % < % 1.2% Antal rum -22.2% 5.1% < % -12.1% Avgift -8.7% 2.2% < % -4.3% Avstånd -7.6% 1.0% < % -5.6% Betraktas residualplotten i Figur 5 kan det konstateras att residualerna bildar ett slumpmässigt mönster, vilket innebär att homoskedasticitet råder. Figur 5: Standardiserad residualplott för Söderort försök 2 Normalfördelningsantagandet är i detta fall uppfyllt då Figur 6 på nästa blad visar en någorlunda rät linje maj 2013

25 Figur 6: PP-diagram för Söderort försök Västerort Försök 1 - stegvis regression En stegvis regression resulterade i följande modell: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avstånd) + ɛ (18) Förklaringsgraden till modellen blev R 2 = 0.60 och den skattade standardavvikelsen för residualerna cirka kr. Anmärkningsvärt är att den förklarande variabeln Avgif t inte inkluderas i modellen. I hypotesen anses denna variabel nödvändig för samtliga modeller och därför analyseras detta försök inte vidare Försök 2 - regression Då variabeln Avgif t exkluderades i försök 1 valdes att analysera en modell med samtliga tillgängliga variabler inkluderade. Försöket resulterade i att variablerna Boarea, Avgif t, Byggår och Avstånd var signifikant skilda från noll på signifikansnivån 5%. Det innebär att vari- 15 maj

26 ablerna Antal rum och P endlingstid skall exkluderas ur modellen på denna signifikansnivå. Ekvationen nedan representerar modellen för detta försök: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Byggår) + β 4 (Avstånd) + ɛ (19) Förklaringsgraden blev R 2 = 0.64 och den skattade standardavvikelsen för residualerna cirka kr. I Tabell 4 nedan presenteras koefficienttabellen för modellen. Tabell 4: Koefficienttabell för Västerort, försök 2. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel ˆβ ˆσ p-värde nedre gräns övre gräns Boarea < Avgift Byggår Avstånd < Ingen allvarlig multikolinjäritet råder i modellen då samtliga variabler har ett VIF<5. Normalfördelningsantagandet för residualerna är uppfyllt då Figur 7 på nästa blad visar en relativt rät linje, förutom några avvikande punkter maj 2013

27 Figur 7: PP-diagram för Västerort försök 2 Betraktas residualplotten i Figur 8 kan det konstateras att residualerna är samlade kring noll och att mönstret är slumpmässigt, vilket innebär att homoskedasticitet råder om de utstickande datapunkterna ignoreras. På grund av att residualerna är slumpmässigt fördelade förmodas att ingen variabel i modellen bör transformeras och sedan adderas till modellen. Figur 8: Standardiserad residualplott för Västerort försök 2 15 maj

28 6.2.3 Försök 3 - logaritmerad responsvariabel På grund av residualernas stora standardavvikelse i försök 2 valdes att logaritmera responsvariabeln. Enheten för variabeln Avgif t ändrades till kkr eftersom resultaten i enheten kr var svåra att tolka i försöken för Söderort. Modellen för detta försök blev följande: log(slutpris) = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Byggår)+ + β 4 (Avstånd) + ɛ (20) eller på ekvivalent form: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Byggår)+β 4 (Avstånd)+ɛ (21) Förklaringsgraden för försöket blev R 2 = 0.65 och den skattade standardavvikelsen för residualerna cirka 23 %. Regressionskoefficienternas procentuella inverkan visas i tabell 5 nedan. Tabell 5: Koefficienttabell för Västerort, försök 3. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel. Variabeln Avgif t är definierad i enheten kkr Procentuell ˆσ p-värde nedre gräns övre gräns inverkan Boarea 1.7% 0.2 % < % 2.1% Avgift % 3.8% < % -6.5% Byggår 0.3% 0.1% % 0.5% Avstånd -7.7% 0.7% < % -6.3% maj 2013

29 PP-diagrammet i Figur 9 visar en rät linje, vilket innebär att normalfördelningsantagandet för residualerna är uppfyllt. Figur 9: PP-diagram för Västerort försök 3 Residualplotten i Figur 10 visar ett slumpmässigt mönster med residualerna samlade kring noll, vilket medför att homoskedasticitet förmodas råda. Figur 10: Standardiserad residualplott för Västerort försök 3 Samtliga variabler har V IF < 5, vilket tyder på att det inte råder någon allvarlig multikolinjäritet i modellen. 15 maj

30 6.3 Innerstaden Försök 1 - stegvis regression En stegvis regression resulterade i följande modell: Slutpris = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Byggår) + ɛ (22) Förklaringsgraden för denna modell blev R 2 = 0.89 och den skattade standardavvikelsen för residualerna cirka kr. I Tabell 6 visas koefficienttabellen för denna modell. Tabellen visar att samtliga variabler har ett p-värde<0.001 och är därmed signifikant skilda från noll och relevanta för modellen. Tabell 6: Koefficienttabell för Innerstaden, försök 1. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel ˆβ ˆσ p-värde nedre gräns övre gräns Boarea < Avgift < Byggår < maj 2013

31 Betraktas Figur 11 kan det konstateras att normalfördelningsantagandet för residualerna är uppfyllt då denna figur visar en relativt rät linje. Figur 11: PP-diagram för Innerstaden försök 1 I residualplotten i Figur 12 nedan ökar residualerna längs x-axeln, vilket innebär att heteroskedasticitet råder. Plotten visar även en möjlig andragradstendens, vilket kan betyda att en extraterm eventuellt bör adderas till modellen. Denna extraterm bör vara i en potens av 1/2 för att minska den kvadratiska tendensen. Figur 12: Standardiserad residualplott för Innerstaden försök 1 I denna modell har alla variabler VIF-värden < 5 vilket inte tyder på någon 15 maj

32 allvarlig multikolinjäritet Försök 2 - regression med extraterm I detta försök inkluderades de variabler som var signifikanta enligt den stegvisa regressionen i försök 1. Variablerna som exkluderades var därmed P endlingstid, Avstånd och Antal rum. Då residualplotten i försök 1 visade en eventuell andragradstendens valdes att addera extratermen Boarea. Anledningen till detta var att Boarea var den variabel som hade högst standardiserade β -värde i försök 1, se Tabell 8 i Appendix, och därför förklarade slutpriset mest. Denna modell gav en mycket hög korrelation mellan variablerna Boarea och Boarea med VIF på 57.4 respektive Försök 3 - regression med extraterm Eftersom försök 2 resulterade i en mycket hög korrelation mellan variablerna Boarea och Boarea introduceras i detta försök en ny variabel Boarea a (Boarea). För att undvika korrelation mellan Boarea och Boarea måste konstanten a väljas så att termerna är ortogonala mot varandra, vilket ger att k (Boarea i ) 3 a k (Boarea i ) 2 = 0 a = i=1 i=1 där i = 1,..., k och k är antalet observationer. Modellen representeras med ekvationen: k Boarea 3 i i=1 k Boarea 2 i i=1 Slutpris = β 0 +β 1 (Avgift)+β 2 (Byggår)+β 3 ( Boarea a (Boarea))+ɛ (23) Alla ingående variabler hade VIF< 5, och därmed existerar ingen allvarlig multikolinjäritet. Betraktas residualplotten i Figur 13 kan det konstateras att mönstret fortfarande visar en kvadratisk tendens och att heteroskedasticitet fortfarande råder. Därför analyseras detta försök inte vidare maj 2013

33 Figur 13: Standardiserad residualplott för Innerstaden försök Försök 4 - logaritmerad responsvariabel På grund av stora residualer i försök 2 logaritmerades responsvariabeln. I denna modell inkluderades samtliga variabler, med resultatet att variablerna P endlingstid och Avstånd var icke-signifikanta. Därför upprepades försöket med dessa ickesignifikanta variabler exkluderade ur modellen. Ekvationen för modellen blev följande: log(slutpris) = β 0 + β 1 (Boarea) + β 2 (Avgift) + β 3 (Antal rum) + β 4 (Byggår) + ɛ (24) eller ekvivalent: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Antal rum)+β 4 (Byggår)+ɛ (25) Förklaringsgraden för modellen blev R 2 = 0.89 och den skattade standardavvikelsen för residualerna cirka 13 %. Koefficienttabellen presenteras i Tabell 7 på nästa blad och visar att samtliga av de i modellen inkluderade variablerna är signifikant skilda från noll. 15 maj

34 Tabell 7: Koefficienttabell för Innerstaden, försök 4. Tabellen visar de förklarande variablernas procentuella inverkan på responsvariabeln. Nedre och övre gräns är definierat för ett 95% konfidensintervall. ˆσ är den skattade standardavvikelsen för respektive förklarande variabel. Variabeln Avgif t är definierad i enheten kkr Procentuell inverkan ˆσ p nedre gräns övre gräns Boarea 1.5% 0.1% < % 1.6% Avgift -3.8 % 1.2% % -1.5% Byggår -0.1% 2.7% % % Antal rum -5.6 % 3.9% < % -0.3% PP-diagrammet för denna modell visas i Figur 14 och visar att normalfördelningsantagandet för residualerna är uppfyllt då denna graf visar en nästintill perfekt rät linje. Figur 14: PP-diagram för Innerstaden försök 4 I residualplotten som visas i Figur 15 kan det konstateras att homoskedasticitet råder då datapunkterna är jämt fördelade kring noll, vilket även innebär att ingen extraterm bör adderas till modellen. Det råder ingen allvarlig multikolinjäritet i modellen då alla inkluderade variabler har VIF< maj 2013

35 Figur 15: Standardiserad residualplott för Innerstaden försök 4 7 Diskussion 7.1 Analys av modellerna Söderort Förklaringsgraderna för de potentiella modellerna för Söderort är 51% respektive 54%, vilket är relativt lågt. I samtliga modeller ingick parametrarna Boarea, Avstånd, Avgift och Antal rum, men den senare modellen hade en logaritmerad responsvariabel och tolkas därför procentuellt. Notera att variabeln Byggår inte ingår i någon av modellerna, då det visade sig att denna variabel var ickesignifikant. Att denna variabel exkluderades kan bero på att det inte är en så stor spridning i datamaterialet gällande byggår i Söderort. Även variabeln P endlingstid var ickesignifikant och exkluderades ur samtliga modeller. Modellen med den logaritmerade responsvariabeln gav en högre förklaringsgrad och residualplotten som visas i Figur 5 i resultatdelen visade ett mer homoskedastiskt beteende än den icke-logaritmerade modellen samtidigt som residualernas normalfördelningsantagande är mer uppfyllt. Det finns utstickande datapunkter i residualplottarna för båda försöken. Orsaken till detta är förmodligen att datamängden kan innehålla ett fåtal bostadsrättsradhus, vars marknad inte är jämförbar med bostadsrättslägenheter. Detta leder till osäkrare skattningar av parametrarna. Ingen av modellerna visar någon tendens till multikolinjäritet för de förklarande variablerna då samtliga variabler har VIF<5. Därmed har modellen med den logaritmerade responsvariabeln en högre förklaringsgrad samtidigt som den inkluderar samma förklarande variabler som den ologaritmerade modellen. Residualerna för det logaritmerade försöket är 15 maj

36 mer normalfördelade och mer homogent fördelade. Därför väljs denna modell som den slutliga modellen för Söderort. Utvärdering av vald modell Som nämndes ovan är den slutliga modellen för Söderort: Slutpris = e β 0+β 1 (Boarea)+β 2 (Antal rum)+β 3 (Avgift)+β 4 (Avstånd)+ɛ (26) För denna modell gjordes ett tvåsidigt t-test för att kontrollera att samtliga variabler som inkluderades i modellen är statistiskt signifikanta. t-värdena för respektive förklarande variabel i modellen presenteras i Tabell 9 i Appendix. För denna modell är samtliga t -värden>t c = Detta innebär att nollhypotesen, att koefficienten skall vara noll, kan förkastas och därmed är samtliga koefficienter skilda från noll på signifikansnivån 5 %. Koefficienttabellen presenteras i Tabell 3 i resultatdelen och visar att Boarea är den enda förklarande variabel som har en positiv inverkan på slutpriset, den procentuella inverkan är 0.9%. Det innebär att lägenhetens slutpris ökar med cirka 1 % då boarean ökar med 1 m 2 samtidigt som övriga variabler hålls konstanta. Att en ökad boarea har en positiv inverkan på slutpriset anses rimligt. Tabellen visar också att Avgift och Avstånd är de variabler som har negativ inverkan på slutpriset. En ökad avgift med kr ger en sänkning av slutpriset med cirka 9 %, medan en ökning av avståndet till Stockholm med 1 km ger en sänkning på cirka 8 %. Övriga variabler hålls konstanta i respektive fall. Detta anses rimligt då ett ökat avstånd till Stockholm bör sänka priset, eftersom bostadsrätter som ligger längre ifrån stadskärnan ofta anses mindre attraktiva. Dock innehåller Söderort områden som ligger längre från stadskärnan som är mer attraktiva än områden som ligger närmare stadskärnan. Detta medför att Söderortsområdet kan anses icke-homogent, vilket gör att modellen får ett fel på cirka 24% i skattningarna samtidigt som förklaringsgraden är förhållandevis låg. Variabeln Antal rum måste tolkas på ett annorlunda sätt än de övriga variablerna då denna är en indikatorvariabel. Variabeln medför en sänkning av slutpriset med ungefär 22% för bostadsrätter med 1 eller 2 rum jämfört med större bostadsrätter där variabeln inte har någon inverkan på priset. Det innebär att om en bostadsrätt har en boarea på 60 m 2 och har 3 rum har maj 2013

37 variabeln ingen inverkan, medan en likadan bostadsrätt med 2 rum kostar cirka 22% mindre för samma avgift och avstånd till Stockholm. Konfidensintervallet i samma koefficienttabell visar att samtliga koefficienter antar rätt tecken då den nedre och övre gränsen ligger på samma sida om origo i samtliga fall. Betraktas de standardiserade β-värdena, som presenteras i Tabell 8 i Appendix, kan det konstateras att Boarea är den variabel som har mest inverkan på priset på grund av att variabelns standardiserade β -koefficient är störst. Detta anses rimligt då boarea förmodligen är den viktigaste parameter som betraktas vid köp av en bostadsrätt. Förändring av slutpriset på en bostadsrätt som kostar kr: Boarea: ökar med 1 m 2 slutpris ökar med kr. Antal rum: om bostadsrätten har maximalt två rum slutpris sänks med kr jämfört med om bostadsrätten har fler rum. För större bostadsrätter har variabeln ingen inverkan. Avgift: ökar med kr slutpris sänks med kr. Avstånd: ökar med 1 km slutpris sänks med kr Västerort Jämförs förklaringsgraderna för de tre försöken för Västerort kan det konstateras att samtliga försök har en förklaringsgrad på cirka 60-65%, vilket är relativt lågt trots att de är högre än för Söderort. Orsaken till att förklaringsgraden trots allt är så låg kan vara att analysen för Västerort utförs på mycket färre observationer än för övriga områden, i Innerstaden är det dubbelt så många. En annan förklaring till den låga förklaringsgraden är att Västerort är inte ett homogent område, och det är därför svårt att generalisera. Västerort omfattar områden som är olika attraktiva. Trots att en bostadsrätt har ett stort avstånd till statskärnan kan den ändå ha ett högre pris än en annan bostadsrätt som ligger närmare stadskärnan på grund av att området anses mer attraktivt. Nämnvärt är att variabeln Antal rum är icke-signifikant i samtliga modeller för Västerort och måste därmed exkluderas. Detta kan dels bero på att datamaterialet för Västerort är avsevärt mindre än för de övriga områdena, som nämndes ovan. En annan förklaring kan vara att datamaterialet består av väldigt många bostadsrätter med fler än två rum, vilket innebär att denna indikatorvariabel inte får någon 15 maj

38 inverkan för dessa bostadsrätter och därmed exkluderas ur modellen. Även variabeln P endlingstid visade sig vara icke-signifikant för samtliga modeller. Det kan konstateras att modellen som erhölls ur den stegvisa regressionen i det första försöket inte är användbar då den exkluderar variabeln Avgif t som anses nödvändig för att kunna modellera slutpriset. I de två resterande försök ingår samma parametrar: Boarea, Avgif t, Byggår och Avstånd, skillnaden är att i ett av försöken betraktas procentuella skillnader då responsvariabeln är logaritmerad. Förklaringsgraden för försöket med icke-logaritmerad responsvariabel är lägre, 64 %, jämfört med 65 % i försöket med den logaritmerade responsvariabeln. Detta innebär att det senare försöket förklarar slutpriset bättre då förklaringsgraden är högre samtidigt som samma förklarande variabler är inkluderade i modellerna. Ytterligare en skillnad mellan försöken är att normalfördelningsantagandet anses vara mer uppfyllt då responsvariabeln är logaritmerad. I denna modell visas också att residualerna är mer jämnt fördelade kring noll och därmed är homoskedasticitetsantagandet mer uppfyllt. På grund av dessa orsaker väljs detta försök som den slutliga modellen för Västerort. Utvärdering av vald modell Enligt resonemanget ovan valdes följande modell för Västerort: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Byggår)+β 4 (Avstånd)+ɛ (27) För den valda modellen gjordes ett tvåsidigt t-test för att kontrollera att alla variabler som inkluderats i modellen bör ingå. Jämförs t-värdena för respektive variabel, se Tabell 9 i Appendix, kan det konstateras att samtliga t -värden>t c = Detta innebär att samtliga koefficienter är skilda från noll på signifikansnivån 5 % och bör ingå i modellen. Koefficienttabellen som presenteras i Tabell 5 i resultatdelen visar att Boarea och Byggår är variabler som har positiv procentuell inverkan på slutpriset med 1.7 % respektive 0.3%. Det innebär att om boarean ökar med 1m 2 ökas slutpriset med 1.7 %, medan slutpriset ökar med 0.3% om byggåret ökar med ett år. Att variabeln Byggår har en positiv inverkan anses rimligt då nybyggda bostadsrätter utanför Innerstaden ofta anses mer attraktiva. Byggår är den enda variabel som har ett p-värde >0.001, och är därför minst signifikant för modellen. Tabellen visar också att de variabler som en har negativ procentuell inverkan på slutpriset är Avstånd och Avgift med -7.7 % respektive -14.0%. Notera att variabeln Avgif t har en mycket stor procentuell inverkan jämfört med övriga variabler. Detta gör att denna variabel kommer att sänka slutpriset väldigt mycket för större lägenheter. Detta datamaterial innehöll maj 2013

39 bara bostadsrätter inom prisintervallet till , så modellen lämpar sig inte till att betrakta prisförändringar för bostadsrätter vars pris är avsevärt högre än detta prisintervall. Konfidensintervallet visar att samtliga koefficienter antar rätt tecken då den nedre och övre gränsen ligger på samma sida om origo i samtliga fall. Residualernas skattade standardavvikelse är cirka 23%, vilket är mindre än för den valda modellen för Söderort. Betraktas de standardiserade β-koefficienterna som presenteras i Tabell 8 i Appendix, kan det konstateras att Boarea är den variabel som förklarar slutpriset mest. För denna modell gjordes en analys av prisförändringar för en bostadsrätts lägenhet med följande egenskaper: Förändring av slutpriset på en bostadsrätt som kostar kr: Boarea: ökar med 1 m 2 slutpris ökar med kr. Avgift: ökar med kr slutpris sänks med kr. Avstånd: ökar med 1 km slutpris sänks med kr. Byggår: ökar med 1 år slutpris sänks med kr Innerstaden Förklaringsgraderna för samtliga försök blev avsevärt högre för Innerstaden jämfört med övriga delar av Stockholm, cirka 90% vilket är 30% högre än för Söderort och Västerort. Orsaken till detta är förmodligen att Innerstaden är ett mer homogent område och att antalet observationer är avsevärt fler. Variablerna som inkluderades i samtliga modeller var Boarea, Avgif t och Byggår. Här har variablerna Avstånd och P endlingstid exkluderats då det visade sig vara icke-signifikanta för modellerna. Detta är rimligt då avståndet till stadskärnan knappt skiljer sig mellan delområdena i Innerstaden. Anmärkningsvärt är att variabeln Antal rum är icke-signifikant i de modeller där responsvariabeln inte logaritmeras, men kan inkluderas då responsvariabeln logaritmerats. En orsak är att residualerna ändrar skala vid logaritmering och nu betraktas den procentuella inverkan på responsvariabeln. Med det logaritmerade försöket övergår de tidigare heteroskedastiskt fördelade residualerna i en homoskedastisk fördelning. 15 maj

40 I samtliga modeller har variabeln Byggår en negativ inverkan på priset, vilket skiljer sig från Västerort. Det innebär att bostadsrätter i en äldre fastighet får ett högre slutpris. Detta är rimligt då priset på sekelskifteslägenheter har skjutit i höjden de senaste åren. Innan responsvariabeln logaritmerades visade residualerna en möjlig kvadratisk tendens, vilket visas i Figur 12 i resultatdelen. Detta utreddes i senare försök genom att introducera en ny variabel. Detta resulterade inte i någon minskning av heteroskedasticiteten eller den eventuella kvadratiska tendensen. Därför bör ingen kvadratisk tendens finnas i försöken, troligtvis är det endast så att heteroskedasticitet råder. Därav kan det konstateras att endast två försök anses relevanta för vidare analys. Dessa är försöket med stegvis regression och försöket med den logaritmerade responsvariabeln. Dessa presenteras som försök ett respektive fyra i resultatdelen för Innerstaden. Båda försöken har samma förklaringsgrad på 89%, men det senare försöket uppfyller normalfördelningsantagandet mer väl. Skillnaderna mellan försöken är att heteroskedasticitet troligtvis råder i modellen från den stegvisa regressionen. Båda försöken inkluderar samma förklarande variabler, förutom att försöket med den logaritmerade responsvariabeln inkluderar variabeln Antal rum. Inget av försöken påvisar tendens till multikolinjäritet. På grund av att homoskedasticitet endast råder i det senare försöket väljs modellen från detta försök till den modell som bäst modellerar prisförändringar på en bostadsrätt i Innerstaden. Här hade AIC- och BIC-värdena varit intressanta att jämföra, dock är detta inte möjligt då AIC och BIC för transformerade modeller endast är jämförbara med varandra. Utvärdering av vald modell Enligt resonemanget ovan valdes följande modell för Innerstaden: Slutpris = e β 0+β 1 (Boarea)+β 2 (Avgift)+β 3 (Antal rum)+β 4 (Byggår)+ɛ (28) Tabell 9 i Appendix visar att alla ˆβ-koefficienter framför de förklarande variablerna är signifikant skilda från noll då samtliga t-värden i tabellen uppfyller kravet att t > t c = Därför är variablerna korrekt inkluderade i modellen ovan. Residualernas skattade standardavvikelse är 13 % för denna modell. Koefficientabellen som presenteras i Tabell 7 i resultatdelen visar att Boarea är den enda variabel som har en positiv inverkan på slutpriset. Tabellen visar att variabeln påverkar priset med en procentuell ökning av 1.5 % då boarean ökar med 1 m 2 samtidigt som övriga variabler hålls konstanta. Resultatet anses rimligt då bostadsrätter med större boyta bör vara dyrare maj 2013

41 Variabeln Avgif t har en negativ inverkan på slutpriset på ett sådant sätt att en ökning av avgiften med kr sänker priset med 3.8%. Den negativa inverkan anses rimlig då en ökad månadsavgift till bostadsrättsföreningen bör minska slutpriset. Även Byggår har en negativ inverkan på slutpriset med en procentuell minskning på 0.1%. Detta anses rimligt för denna del av Stockholm då äldre fastigheter förmodas vara mer attraktiva på bostadsmarknaden än nybyggnationer. På samma sätt som för Söderort måste variabeln Antal rum tolkas på ett annorlunda sätt då det är en indikatorvariabel. Tabellen visar att variabeln ger en procentuell sänkning av slutpriset med 5.6% då bostadsrätten har två rum eller färre. Har bostadsrätten fler än två rum har variabeln ingen inverkan på slutpriset. Betraktas konfidensintervallet i samma tabell kan det konstateras att samtliga koefficienter antar rätt tecken då den nedre och övre gränsen ligger på samma sida om origo i samtliga fall. Den förklarande variabel som har störst inverkan på slutpriset är Boarea då dess standardiserade β-koefficient är störst till beloppet, vilket presenteras i Tabell 8 i Appendix. Förändring av slutpriset på en bostadsrätt som kostar kr: Boarea: ökar med 1 m 2 slutpris ökar med kr. Avgift: ökar med kr slutpris sänks med kr. Antal rum: om bostadsrätten har maximalt två rum slutpris sänks med kr. För bostadsrätter med fler än två rum sker ingen prisförändring. Byggår: ökar med 1 år slutpris sänks med kr Utvärdering av resultaten Förklaringsgraden för de valda modellerna skiljer sig avsevärt mellan de olika stadsområdena. För Söderort blev förklaringsgraden 54%, för Västerort 65% och för Innerstaden 89%. Residualernas skattade standardavvikelse blev 22%, 23% respektive 13% för modellerna. Det kan då konstateras att förklaringsgraden för Innerstaden är högst samtidigt som residualerna är minst. Orsaken till detta är att det för Innerstaden erhölls ett datamaterial med avsevärt fler observationer, vilket medför säkrare skattningar. Innerstadsområdet är mer homogent än övriga områden, vilket medför att det är lättare att finna en modell som beskriver bostadsrättspriser i Innerstaden. Samtidigt bör inte bostadsrättsradhus finnas i datamaterialet för Innerstaden, 15 maj

42 vilket leder till färre avvikande datapunkter. Marknaden för bostadsrättsradhus skiljer sig mycket från bostadsrättslägenheter, då denna marknad är mer lämpad att jämföras med villamarknaden. Dessa är troligtvis orsakerna till att Innerstadsmodellen fick avsevärt större förklaringsgrad och mindre residualer än övriga områden. I Västerort och Söderort är det mer sannolikt att bostadsrättsradhus finns i datamaterialet, vilket leder till fler avvikande värden. Eftersom det är stor spridning mellan bostadsrättspriser som kan sträcka sig från några hundra tusen till tiotals miljoner kronor anses det lämpligare att betrakta residualernas procentuella inverkan. De modeller som betraktar det faktiska slutpriset anses inte lämpliga för analys av bostadspriser då residualerna kan ha mycket stor inverkan på bostadsrätter med lägre slutpris och knappt någon inverkan alls då slutpriset är mycket högre. Därför väljs modeller med logaritmerad responsvariabel för samtliga stadsområden. I flera fall övergick heteroskedastiskt fördelade residualer i homoskedastisk fördelning då responsvariabeln logaritmerats. Anmärkningsvärt är att en extravariabel, Antal rum, endast inkluderades i modellen för Innerstaden då de procentuella skillnaderna betraktades. Multikolinjäritet och förklaringsgrad förändrades inte märkbart då responsvariabeln logaritmerades. För samtliga stadsområden blev Boarea den variabel som påverkade priset mest. Även Avgif t inkluderades i samtliga modeller då den i hypotesen ansågs nödvändig. P endlingstid är den enda variabel som exkluderades ur samtliga modeller och har därför ingen inverkan på slutpriset. Anledningen är att variabeln troligtvis är kopplad till Avstånd och är därför svåra att ha med i samma modell. I framtagna modellerna tar endast indikatorvariabeln Antal rum hänsyn till att det är en annan marknad för små bostadsrätter med maximalt två rum, än för större lägenheter. Det gjordes försök med analys av endast små bostadsrätter, dock med mindre datamaterial. Detta medförde sämre skattningar och därför presenteras inte dessa modeller i rapporten. Vi anser att de modeller vi har tagit fram är mer lämpade för att betrakta procentuella prisförändringar än att att prediktera det faktiska slutpriset på en bostadsrätt. Anledningen till detta är att det är så många faktorer som påverkar priset och därför anser vi det svårt att med de fåtal faktorer vi fått tillgång till att prediktera ett faktiskt slutpris. Betraktas istället prisförändringar kan vi utgå ifrån ett referenspris, vilket ger rimligare resultat. Hade analyserna utförts på mer datamaterial och med fler förklarande variabler hade ett bättre resultat erhållits maj 2013

43 8 Slutsats Tre modeller har tagits fram för respektive stadsområde i Stockholm. Dessa modeller betraktar endast procentuella förändringar av slutpriset på en bostadsrätt. De additiva modellerna som togs fram uppfyller inte de antaganden som bör vara uppfyllda för en multipel regressionsanalys. Därför dras slutsatsen att det inte går att modellera det faktiska slutpriset på en bostadsrätt med de tillgängliga potentiella förklarande variablerna och erhållet datamaterial med en additiv modell. Däremot uppfyller de modeller som betraktar variablernas procentuella inverkan på slutpriset antagandena för regressionsanalys på ett godtagbart sätt. Den främsta orsaken till detta är den stora spridningen i datamaterialet och att antalet förklarande variabler var få. Den bäst framtagna modellen blev den för Innerstaden som är det mest homogena området och ger en modell med rimliga procentuella förändringar. 15 maj

44 Referenser [1] Lang H. Topics on Applied Mathematical Statistics. Stockholm: Institutionen för Matematisk Statistik vid Kungliga Tekniska Högskolan; [2] Sundberg R. Lineära Statistiska Modeller. Stockholm: Institutionen för Matematisk vid Stockholms Universitet; [3] A.H. Studemund Using econometrics, 5th edition. Boston: Pearson and Addison-Wesley; [4] Wahlgren L. SPSS steg för steg. Lund: Studentlitteratur; [5] Standardized Coefficients: faktablad. South Bend: University of Notre Dame du Lac; 2013 [läst 29 april 2013]. Tillgänglig: [6] Evans M, Hastings N, Peacock B. Statistical Distributions, 3rd ed. New York: [7] PP-plot: faktablad. New York: IBM Company; [läst 20 april 2013]. Tillgänglig: index.jsp?topic=%2fcom.ibm.spss.statistics.help%2fidh_ gnpp.htm maj 2013

45 9 Appendix Tabell 8: Standaridiserade β-koefficienter för de valda modellerna i respektive stadsområde Söderort Västerort Innerstaden Boarea Antal rum icke-signifikant Avgift Avstånd icke-signifikant Byggår icke-signifikant Pendlingstid icke-signifikant icke-signifikant icke-signifikant Tabell 9: Beräknade t-värden för de valda modellerna för respektive statsområde Söderort Västerort Innerstaden Boarea Antal rum -4.3 icke-signifikant -2.1 Avgift Avstånd icke-signifikant Byggår icke-signifikant Pendlingstid icke-signifikant icke-signifikant icke-signifikant Figur 16: Korrelationsplott mellan boarea och antal rum för Söderort 15 maj

46 Figur 17: Korrelationsplott mellan boarea och antal rum för Västerort Figur 18: Korrelationsplott mellan boarea och antal rum för Innerstaden maj 2013

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk

Läs mer

Analys av bostadsrättspriset i Stockholms innerstad

Analys av bostadsrättspriset i Stockholms innerstad Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Regressionsanalys av huspriser i Vaxholm

Regressionsanalys av huspriser i Vaxholm Regressionsanalys av huspriser i Vaxholm Rasmus Parkinson Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:19 Matematisk statistik Juni 2015 www.math.su.se

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

NÄR SKA MAN SÄLJA SIN BOSTAD?

NÄR SKA MAN SÄLJA SIN BOSTAD? NÄR SKA MAN SÄLJA SIN BOSTAD? En multipel regressionsanalys av bostadsrätter i Stockholm Oscar Jonsson Moa Englund Stockholm 2015 Matematik Institutionen Kungliga Tekniska Högskolan Sammanfattning Projektet

Läs mer

En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden

En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Kungliga

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen

Läs mer

Föreläsning 4. Kap 5,1-5,3

Föreläsning 4. Kap 5,1-5,3 Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet

Läs mer

Regressionsanalys av bostäder i Ekerö kommun

Regressionsanalys av bostäder i Ekerö kommun Regressionsanalys av bostäder i Ekerö kommun Ellen Karlsson Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:10 Matematisk statistik Juni 2016 www.math.su.se

Läs mer

Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader

Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader Fatemeh Engqvist Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2017:23

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Kapitel 10 Hypotesprövning

Kapitel 10 Hypotesprövning Sannolikhetslära och inferens II Kapitel 10 Hypotesprövning 1 Vad innebär hypotesprövning? Statistisk inferens kan utföras genom att ställa upp hypoteser angående en eller flera av populationens parametrar.

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

TVM-Matematik Adam Jonsson

TVM-Matematik Adam Jonsson TVM-Matematik Adam Jonsson 014-1-09 LABORATION 3 I MATEMATISK STATISTIK, S0001M REGRESSIONSANALYS I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistikprogrammet

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys) Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,

Läs mer

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser: 1 Uppgiftsbeskrivning Syftet med denna laboration var att utifrån uppmätt data avgöra: (i) Om något samband finnes mellan kroppstemperatur och hjärtfrekvens. (ii) Om någon signifikant skillnad i sockerhalt

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Instruktioner till Inlämningsuppgift 1 och Datorövning 1 STOCKHOLMS UNIVERSITET HT 2005 Statistiska institutionen 2005-10-14 MC Instruktioner till Inlämningsuppgift 1 och Datorövning 1 Kurs i Ekonometri, 5 poäng. Uppgiften ingår i examinationen för kursen och

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

F11. Kvantitativa prognostekniker

F11. Kvantitativa prognostekniker F11 Kvantitativa prognostekniker samt repetition av kursen Kvantitativa prognostekniker Vi har gjort flera prognoser under kursen Prognoser baseras på antagandet att historien upprepar sig Trenden följer

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Sänkningen av parasitnivåerna i blodet

Sänkningen av parasitnivåerna i blodet 4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 22 februari STOCKHOLMS UIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 februari 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

Finansiell statistik. Multipel regression. 4 maj 2011

Finansiell statistik. Multipel regression. 4 maj 2011 Finansiell statistik Föreläsning 4 Multipel regression Jörgen Säve-Söderbergh 4 maj 2011 Samband mellan variabler Vi människor misstänker ofta att det finns många variabler som påverkar den variabel vi

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 6 MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00 Laboration 6: Regression Syftet med den här laborationen är att du skall bli

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Bayesiansk statistik, 732g43, 7.5 hp

Bayesiansk statistik, 732g43, 7.5 hp Bayesiansk statistik, 732g43, 7.5 hp Moment 2 - Linjär regressionsanalys Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 1 / 29 Översikt moment 2: linjär

Läs mer

Inflyttning i Stockholmsområdet

Inflyttning i Stockholmsområdet Inflyttning i Stockholmsområdet - En regressionsanalys av variabler som påverkar inflyttningen i Stockholmskommunerna. Fredrik Arbegard 1 Rapport Kandidatexamensarbete Farkostteknik (SA105X) Handledare:

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2019-06-07 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Adam Jonsson Jourhavande

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B Föreläsning 4 Kap 3.5, 3.8 Material om index 732G71 Statistik B Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så

Läs mer

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa. Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: 732G71 Statistik B 2015-12-09, 8-12 Bertil Wegmann

Läs mer

Experimentella metoder, FK3001. Datorövning: Finn ett samband

Experimentella metoder, FK3001. Datorövning: Finn ett samband Experimentella metoder, FK3001 Datorövning: Finn ett samband 1 Inledning Den här övningen går ut på att belysa hur man kan utnyttja dimensionsanalys tillsammans med mätningar för att bestämma fysikaliska

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

TAMS65 - Seminarium 4 Regressionsanalys

TAMS65 - Seminarium 4 Regressionsanalys TAMS65 - Seminarium 4 Regressionsanalys Martin Singull Matematisk statistik Matematiska institutionen Problem 1 PS29 Vid ett test av bromsarna på en bil bromsades bilen upprepade gånger från en hastighet

Läs mer

Laboration 4 R-versionen

Laboration 4 R-versionen Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 VT13, lp3 Laboration 4 R-versionen Regressionsanalys 2013-03-07 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 17 februari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 17 februari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312,

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

TAMS65 DATORÖVNING 2

TAMS65 DATORÖVNING 2 TAMS65 DATORÖVNING 2 Datorövningen behandlar multipel linjär regression Förberedelser Läs allmänt om regressionsanalys i boken och på föreläsningsanteckningarna Glöm inte att rensa minnet och alla fönster

Läs mer

Laboration 2 multipel linjär regression

Laboration 2 multipel linjär regression Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Korrelation och regression Innehåll 1 Korrelation och regression Spridningsdiagram Då ett datamaterial består av två (eller era) variabler är man ofta intresserad av att veta om det nns ett

Läs mer

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng Matematisk statistik Provmoment: Ladokkod: Tentamen ges för: TT091A, TVJ22A, NVJA02 Pu, Ti 7,5 högskolepoäng Namn: (Ifylles av student) Personnummer: (Ifylles av student) Tentamensdatum: 2012-05-29 Tid:

Läs mer

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 29 mars 2008 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

import totalt, mkr index 85,23 100,00 107,36 103,76

import totalt, mkr index 85,23 100,00 107,36 103,76 1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen

Läs mer

Tentamen i matematisk statistik

Tentamen i matematisk statistik Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Mälardalens Högskola. Formelsamling. Statistik, grundkurs Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

tentaplugg.nu av studenter för studenter

tentaplugg.nu av studenter för studenter tentaplugg.nu av studenter för studenter Kurskod Kursnamn SM Matematisk statistik Datum LP - Material Laboration 4 Kursexaminator Adam Betygsgränser Tentamenspoäng Övrig kommentar Försättsblad inlämningsuppgift

Läs mer

Statistiska metoder för säkerhetsanalys

Statistiska metoder för säkerhetsanalys F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den

Läs mer