Analys av faktorer som påverkar bränsleförbrukningen i en personbil

Storlek: px
Starta visningen från sidan:

Download "Analys av faktorer som påverkar bränsleförbrukningen i en personbil"

Transkript

1 EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2018 Analys av faktorer som påverkar bränsleförbrukningen i en personbil Med multipel linjär regression FILIP JOVANOVIC PAUL SINGH KTH SKOLAN FÖR TEKNIKVETENSKAP

2

3 Analys av faktorer som påverkar bränsleförbrukningen i en personbil Med multipel linjär regression FILIP JOVANOVIC PAUL SINGH Examensarbete inom tillämpad matematik och industriell ekonomi Civilingenjörsutbildning i industriell ekonomi Kungliga Tekniska högskolan 2018 Handledare på KTH: Daniel Berglund, Gustav Martinsson Examinator: Henrik Hult

4 TRITA-SCI-GRU 2018:192 MAT-K 2018:11 Royal Institute of Technology School of Engineering Sciences KTH SCI SE Stockholm, Sweden URL:

5 Analys av faktorer som påverkar bränsleförbrukningen i en personbil: med multipel linjär regression. Sammanfattning Detta kandidatexamensarbete inom tillämpad matematik och industriell ekonomi undersöker olika faktorers påverkan på bränsleförbrukningen i personbilar. Detta görs genom att utföra en multipel linjär regression med programmet R. Dessutom utförs en analys av bilbranschen som täcker de interna och externa faktorerna som påverkar biltillverkare för att presentera en optimal strategi gällande FoU för biltillverkare med relativt låg omsättning. Denna analys är baserad på Porter s femkraftsmodell och en PEST-analys. Datan som används i regressionen är tillhandahållen av U.S. Environmental Protection Agency (EPA) och bestod av 1245 personbilar och bearbetades för att utföra regressionen. Resultaten från regressionsanalysen indikerar att det är möjligt att förklara cirka 80 % av bränsleförbrukningen i personbilar. Mer specifikt är det antalet cylindrar, typ av växellåda och cylinderdeaktiverings-system som har störst inverkan på bränsleförbrukningen. Dessutom visar den ekonomiska analysen av bilindustrin att starkt påverkande yttre faktorer som regleringar och ändrande kundpreferenser tillsammans med konkurrens från andra aktörer inom industrin utgör det största hotet. Den primära slutsaten av detta kandidatexamensarbete är att biltillverkare med relativt låg omsättning borde implementera cylinderdeaktiveringssystem och överge turbo-downsizing -trenden inom industrin. Tillika bör manuella växellådor överges för att reducera bränsleförbrukningen, produktionskostnaderna och öka komforten för konsumenter.

6

7 Analysis of factors affecting the fuel efficiency in a passenger car: using multiple linear regression. Abstract This thesis in applied mathematics and industrial economics investigates different factors affecting the fuel consumption in passenger cars. This is done by performing a multiple linear regression using the software R. Further, an analysis of the car industry is done covering the internal and external factors affecting the car manufacturers, in order to present an optimal strategy regarding RnD for car manufacturers having relatively low revenues. This analysis is based on Porter s five forces framework and a PEST-analysis. The data used for the regression has been gathered by the U.S. Environmental Protection Agency (EPA) and consists of 1245 passenger cars which was then processed in order to apply the regression. The results of the regression analysis performed indicated that it is possible to explain approximately 80% of the fuel consumption in passenger cars. More precisely, the number of cylinders, type of transmission and cylinder deactivation-system had the biggest impact on the fuel consumption. Furthermore the economic analysis of the industry revealed highly influencing external factors such as regulations and changing consumer preferences together with competition from other actors within the industry being the biggest threat. The main conclusion from this thesis is that car manufacturers having relatively small revenues should implement cylinder deactivation systems and abandon the turbo-downsizing trend within the industry. Furthermore manual gearboxes should be abandoned in order to reduce the fuel consumption and manufacturing costs while increase the comfort for the consumer.

8

9 Förord Vi vill tacka våra handledare Daniel Berglund och Gustav Martinsson från institutionen för Matematik respektive Industriell ekonomi och organisation för kontinuerligt stöd och input till vårt arbete. Dessutom vill vi rikta ett stort tack till Tatjana Pavlenko som bistått med vägledning under arbetets gång. Slutligen vill vi tacka våra opponenter Erik Malmgren, Markus Hilmersson, Karl Wallström samt Markus Wahlgren som bistått med konstruktiv kritik och goda råd.

10

11 Innehåll 1 Inledning Bakgrund Problemformulering Syfte och frågeställningar Avgränsningar Teori Multipel Linjär Regressionsanalys Ordinary Least Squares Variabler Antaganden Modellfel Multikollinjäritet Endogenitet Heteroskedasticitet Modellvalidering Normalitet Box-Cox transformation VIF Homoskedasticitet Hypotestest, p-värde och konfidensintervall Inflytelserika observationer Best Subsets Regression Kriterier för variabelselektion Förklaringsgrad Sum of Square Residuals AIC och BIC Mallow s C p Ekonomisk teori Porters femkraftsmodell PEST Metod Data Insamling Bearbetning Val av variabler Responsvariabel Förklaringsvariabler Kvantitativa Kvalitativa Grundmodell Validering av grundmodell

12 Homoskedasticitet och normalitet Endogenitet Multikollinjäritet Inflytelserika observationer Åtgärder Reducering av grundmodell Best Subsets Regression Alternativ reducering av grundmodell Val av slutgiltig modell Resultat Reducerad modell Validering av reducerad modell Homoskedasticitet och normalitet Endogenitet och inflytelserika observationer Diskussion Analys av slutgiltig modell Koefficienter Cylindrar Vikt Manuell växellåda Cylinderdeaktivering Drivning Växlar Turbo Start/stopp-system Branschanalys Porters femkraftsmodell PEST FoU i branschen Strategi Utgångspunkten Alternativa strategier Utvecklingsmöjligheter Slutsats 41 7 Referenser 42 2

13 1 Inledning 1.1 Bakgrund Den globala försäljningen av personbilar har haft en stadig ökning sedan 2014 och år 2017 såldes cirka 79 miljoner bilar i världen [1]. De största aktörerna på marknaden 2016 var Toyota Motor Company (Toyota) med intäkter på 254 miljarder dollar, Volkswagen AG (Volkswagen) med intäkter på 240 miljarder dollar och slutligen Daimler med intäkter på cirka 170 miljarder dollar [2]. Detta kan jämföras med den relativt mindre koncernen PSA Peugeot Citroen (PSA-gruppen) som hade cirka 65 miljarder dollar i intäkter samma år [3]. Trots att biltillverkarna lyckats leverera bilar med bättre bränsleförbrukning och minskad miljöpåverkan, bl.a. i form av minskad vattenförbrukning per tillverkad bil, har utsläppen av växthusgaser från transportbranschen ökat sedan 1995 [4]. Detta har att göra med den ökade efterfrågan på personbilar som förväntas att växa ännu mer under kommande år [4]. Konsumenter har blivit mer miljömedvetna på senare år vilket återspeglas i den ökade försäljningen av hybrid- och elbilar världen över [5, s.12]. Dessutom förväntas kommande generationerna vara mer miljömedvetna vilket kommer leda till att låg bränsleförbrukning och klimatpåverkan blir ett starkare konkurrensmedel inom branschen [6]. Utvecklingen inom branschen har sett ljus ut och dagens bilar är ofta utrustade med avancerade hjälpsystem som förbättrar säkerheten och ökar komforten. Framkomsten av dessa system har i allra högsta grad påverkats positivt av den höga konkurrensen inom branschen. För att möta utsläppskraven och den ökade efterfrågan på miljövänliga bilar krävs stora investeringar av biltillverkarna för att optimera drivlinan och andra smarta funktioner som cylinderdeaktivering och start/stopp [7, s.11]. Experter inom området menar att genombrott inom forskningen kring förbränningsmotorer kan förbättra bränsleförbrukningen med 75 % och det är därför av yttersta vikt för biltillverkarna att fokusera sin FoU rätt [8]. 1.2 Problemformulering Tillverkare försöker sänka bränsleförbrukningen och minska klimatpåverkan på olika sätt. Ford har t.ex. bytt ut stål mot aluminium i vissa bilar för att reducera vikten, Honda har bytt ut sina traditionella automatväxellådor mot steglösa växellådor och BMW använder bl.a. förbättrade aerodynamiska egenskaper i samklang med turbomotorer för att få ner bränsleförbrukningen [8]. Men om investeringar i dessa åtgärder skulle löna sig var troligtvis svårt att bedöma på förhand. En av svårigheterna med FoU inom branschen idag är osäkerheten kring investeringarna som görs för att optimera bränsleförbrukningen [7, s.9]. Det är därför viktigt för mindre biltillverkare, bl.a. PSA-gruppen, att investeringarna inom FoU prioriteras rätt. Med mindre intäkter och marknadsandelar kan en misslyckad FoU leda till man tappar marknadsandelar och i värsta fall till en konkurs. Lyckas man däremot med sin FoU kan man möta den ökade efterfrågan på miljövänliga bilar och ta större marknadsandelar gentemot andra tillverkare. 3

14 1.3 Syfte och frågeställningar Syftet med den här rapporten är att undersöka om bränsleförbrukning i en personbil kan förklaras m.h.a. en linjär modell av olika faktorer och sedan analysera vilka av dessa som påverkar bränsleförbrukning mest i en personbil. Utifrån det och en omvärldsanalys ska en relevant FoUstrategi föreslås för mindre biltillverkare. För att uppnå syftet med denna rapport kommer följande två forskningsfrågor att besvaras i rapporten: Hur bra kan olika faktorers påverkan på bränsleförbrukningen förklaras med hjälp av en linjär modell? Vilken strategi ska mindre biltillverkare ha gällande sin FoU och implementeringen av förbrukningsreducerande åtgärder för att öka sin konkurrenskraft? 1.4 Avgränsningar Rapporten kommer att avgränsas till bilar som använder fossila bränslen eftersom att datan som erhållits inte är applicerbar på hybridbilar. FoU-strategin som föreslås kommer främst att vara anpassad för att öka konkurrenskraften i I-länder och därför kommer U-länder att lämnas utanför rapporten. 4

15 2 Teori 2.1 Multipel Linjär Regressionsanalys När en regressionsanalys utförs ansätts en ekvation för att modellera förhållandet mellan en responsvariabel och en eller flera prediktionsvariabler även kallade regressorer eller kovariat. Modellen som ansätts när flera regressorer antas påverka responsvariabeln ser ut som följande: y i = β 0 + k β j x ij + ɛ i i = 1, 2,..., n (1) j=1 y i motsvarar responsvariabeln och x ij är det j:te kovariatet i den i:te observationen. ɛ i är en stokastisk felterm och parametrarna β 0 och β j är regressionskoefficienter som ska estimeras. Modellen som beskrivs av ovanstående ekvation kan även skrivas i matrisform och ges då av: Där Y = y 1. y n, X = Y = Xβ + ɛ (2) 1 x 11 x x 1k 1 x 21 x x 2k , β = 1 x n1 x n2... x nk β 0. β k, ɛ = 1.. ɛ ɛ n Ordinary Least Squares Målet när en linjär modell ansätts är att estimera värden på regressionskoefficienterna och ett tillvägagångssätt är att använda Ordinary Least Squares (OLS). När OLS används minimeras kvadratsumman av feltermerna och parametervektorn med de estimerade värdena betecknas med ˆβ. De estimerade värdena erhålls genom att minimera följande ekvation med avseende på β: n ɛ 2 i = ɛ T ɛ = (Y Xβ) T (Y Xβ) (3) i=1 Detta leder till normalekvationerna för OLS från vilka ˆβ erhålls vilken anges nedan tillsammans med normalekvationerna: X T X ˆβ = X T Y ˆβ = (X T X) 1 X T Y (4) OLS kommer leda till att ˆβ, under antagandena som görs i nästa kapitel, har vissa egenskaper som kan förkortas till BLUE. Detta står för Best Linear Unbiased Estimator och betyder att OLS leder till en estimering med lägsta möjliga varians givet att estimeringen är väntevärdesriktig. 5

16 2.1.2 Variabler När en regressionsanalys utförs används olika typer av variabler beroende på situationen och utgörs huvudsakligen av följande: 1) Kvantitativa variabler 2) Kvalitativa variabler Kvantitativa variabler beskriver en effekt som är kvantifierbar. Kvalitativa variabler, även kallade dummy-variabler, indikerar om en observation innehar en egenskap som är kopplad till variabeln [9, s.260]. Dummy-variablerna antar värdet 0 om en observation saknar egenskapen och värdet 1 om observationer innehar egenskapen. Genom att använda dummy-variablerna går det att ta hänsyn till icke-kvantifierbara egenskaper som kan ha en effekt på responsvariabeln Antaganden De antaganden som görs när modellen i ekvation (2) ansätts och ˆβ erhålls är följande: Feltermen har väntevärde noll. Detta krävs för att skattningen ˆβ ska vara väntevärdesriktig. Homoskedasticitet råder vilket innebär att feltermerna ɛ är oberoende och har konstant varians. Matrisen X är deterministisk och ranken av X T X är p. Om detta inte gäller går det inte att erhålla ˆβ genom OLS. Feltermerna är okorrelerade, d.v.s. värdet av ɛ i är oberoende av ɛ j för alla i skilda från j. Feltermerna är normalfördelade med väntevärde noll och konstant varians. Detta krävs för att möjliggöra hypotestestning av modellen och bestämma konfidensintervall för parametrarna. 2.2 Modellfel När modellen ansätts görs flera antaganden, främst kring feltermen ɛ, och när dessa antaganden inte håller introduceras fel i modellen. Detta påverkar bland annat estimeringen av koefficienterna och modellens validitet. Nedan sammanfattas de fel som är relevanta för detta arbete Multikollinjäritet Multikollinjäritet uppstår på grund av att minst två kovariat är korrelerade. Detta kan leda till att absolutbeloppen av kovariaten och deras varianser blir relativt stora vilket är ett problem eftersom att OLS-estimeringen ˆβ kommer vara bristande [9, s.290]. Orsaken till stora varianser och dåliga skattningar när flera kovariat är korrelerade kan förklaras genom att undersöka komponenterna av ˆβ som tidigare angivits i ekvation (4). Den första komponenten i denna ekvation består av en inverterad matris, (X T X) 1 och om kovariaten är korrelarade leder detta till att X T X blir illa-konditionerad eftersom att kolumnerna i X är linjärt beroende. Om multikollinjäritet kan återfinnas bland kovariaten görs en bedömning av hur allvarligt detta påverkar ˆβ och i vissa fall behöver inga åtgärder vidtas. Diagnostisering och åtgärder av detta problem beskrivs i senare kapitel. 6

17 2.2.2 Endogenitet Endogenitet uppstår när feltermen ɛ korrelerar med ett eller flera kovariat. Detta innebär att antagandet om att feltermen har väntevärde noll inte stämmer och ˆβ blir inte väntevärdesriktig. Dessutom leder endogenitet till att OLS ger icke-konsekventa estimeringar vilket påverkar modellens validitet, framförallt när den ska användas i syfte till att förklara hur kovariaten påverkar responsvariabeln [10, s.26] Heteroskedasticitet Heteroskedasticitet uppstår på grund av att feltermernas varians inte är konstant vilket går emot det grundläggande antagandet som krävs när en regressionsanalys utförs [9, s.172]. En anledning till varför detta problem uppstår kan vara att responsvariabeln följer en fördelning i vilken variansen beror av medelvärdet [9, s.172]. Betydelsen av detta för regressionen är att OLS inte längre leder till en estimering med lägsta möjliga varians vilket är oönskat eftersom att detta ökar osäkerheten i skattningen av parametrarna [9, s.173]. 2.3 Modellvalidering När en grundmodell är ansatt måste modellens lämplighet bedömas och antaganden som gjorts måste testas. Utifrån detta kan modellfel som nämnts tidigare upptäckas och åtgärdas. Valideringen av grundmodellen används sedan för att ta fram nya modeller eftersom grundmodellens lämplighet jämförs med reducerade modeller för att dra slutsatser om lämpliga reduceringar som bör göras Normalitet Feltermerna antas vara normalfördelade vilket är ett krav för att kunna dra slutsatser om parametrarnas betydelse för modellen. Om detta antagande inte håller ger OLS samma estimeringar som utan antagandet men tillförlitligheten går inte att bedöma. För att undersöka om feltermerna är normalfördelade kan en Normal Q-Q plot användas. Data som är perfekt normalfördelad kommer ligga längs den räta linjen i en Q-Q plot och om datapunkterna avviker relativt mycket från denna linje är antagandet om normalitet inte rimligt. I följande figurer illustreras hur data som är normalfördelad respektive icke-normalfördelad ser ut i Q-Q plot. 7

18 Figur 1: Figuren visar icke-normalfördelade feltermer. Figur 2: Figuren visar normalfördelade feltermer Box-Cox transformation Om feltermerna inte kan antas vara normalfördelade kan en transformation av responsvariabeln användas. Transformationen görs utifrån Box-Cox-metoden vilket ger att responsvariabel Y transformeras enligt följande [11] : { Y λ 1 Y (λ) = λ, när λ 0 (5) log(λ), när λ = 0 Parametern λ bestäms genom maximum-likelihoodmetoden och för att underlätta tolkningen av den transformerade variabeln är det föreslaget att använda avrunda lambda [9, s.183] VIF För att undersöka om åtgärder bör tas för att korrigera multikollinjäritet kan Variance Inflation Factor (VIF) användas. Dessa indikerar om ett kovariat är drabbat och hur allvarligt detta är. En tumregel som används som utgångspunkt är att ett VIF -värde som överskrider 5 kan kräva en åtgärd och ytterligare analys borde göras för att ta ett sådant beslut. Om VIF -värdet överskrider 10 är multikollinjäriteten allvarlig nog för att påverka estimeringen ˆβ och dess tillförlitlighet [9, s.296]. För kategoriska variabler som beskrivs av minst två dummy-variabler beror VIF -värdet på vilken baseline som väljs. Detta leder till att VIF -värdet måste beräknas med alla möjliga val av baselines för att utesluta att multikollinjäritet inte existerar. För att kringgå detta problem används Generalized Variance Inflation Factor (GVIF) som antar värdet 1 när ingen multikollinjäritet existerar och går mot oändligheten när korrelationen mellan variablerna är allvarlig. [12, s ] Tumregeln som används för VIF är även applicerbar på GVIF -värdet men då måste följande förhållande beaktas vilket indikerar att GVIF -värdet är samma som VIF -värdet när antalet frihetsgrader är ett: 1 V IF = GV IF 2 df (6) 8

19 2.3.4 Homoskedasticitet Homoskedasticitet är motsatsen till heteroskedasticitet och innebär att feltermerna har konstant varians. För att undersöka om homoskedasticitet råder används en residual plot där residualerna plottas mot de ansatta värdena. Om homoskedasticitet råder kommer spridningen av punkterna i plotten att vara relativt konstant och inga tydliga mönster ska kunna identifieras. Rekommendationer om att använda R-student residualerna kommer att följas när plotten görs [9, s.139]. R-student residualerna ser ut som följande: e i t i = (7) S(i) 2 (1 h ii) Där, S(i) 2 = (n p)ms res e 2 i /(1 hii), n p 1 e i = y i ŷ i, n = antal observationer, p = antal kovariat + 1 (8) Nedan följer en figur som illustrerar när variansen är konstant, homoskedasticitet råder, och när variansen inte är konstant. Figuren visar homoskedas- Figur 3: ticitet. Figuren visar heteroskedas- Figur 4: ticitet Hypotestest, p-värde och konfidensintervall Hypotesprövning kan användas för att undersöka hur signifikanta kovariaten är och om de bör inkluderas. En global hypotesprövning utförs m.h.a. ett F-test och undersöker om det finns ett förhållande mellan responsvariabeln och minst ett av kovariaten. Detta genom att ställa upp en nollhypotes och en mothypotes som formuleras i följande ekvation [9, s.84]: H 0 : β 1 = β 2 = = β k = 0, H 1 : β j 0 för minst ett j. (9) Om nollhypotesen antags vara trolig indikerar detta att det inte är möjligt att säkerställa att alla regressionskoefficienter är skilda från noll, vilket påvisar att det inte finns ett linjärt förhållande mellan responsvariabeln och kovariaten. För att göra en global hypotesprövning används följande testvariabel: F o = SS R /k SS res /(n k 1) = MS R MS res, där F o H 0 F (k, n k 1) (10) För att pröva hypotesen H 0 används p-värdet som är associerat till F 0 och om detta p-värde underskrider den givna signifikansnivån kan nollhypotesen förkastas. Signifikansnivån brukar sättas 9

20 till 0.05 eller 0.01 som standard och i detta arbete kommer 0.05 användas som signifikansnivå [13, s.68]. p-värdet anges av följande ekvation: p = P (F 0 > F (k, n k 1)) (11) För att göra en lokal hypotesprövning och undersöka om varje enskilt kovariat är signifikant används ett t-test där en testvariabel t 0 och korresponderande p-värde används på samma sätt som för F-testet. Hypotesen och testvariabeln ser ut som följande: H 0 : β j = 0, H 1 : β j 0 (12) t 0 = ˆβ j se( ˆβ j ) Signifikansen av ett kovariat är beroende av de redan inkluderade kovariaten i modellen. Detta innebär att när modellen reduceras måste nya p-värden beräknas och ligga till grund för ytterligare eventuella reduceringar [9, s.88] Inflytelserika observationer Observationer som är inflytelserika kan komma att påverka ansättningen av regressionslinjen negativt, eftersom att de tenderar att skifta regressionslinjen mot sig. Detta sker på grund av att OLS försöker minska kvadratsumman av residualerna men kan leda till att regressionslinjen blir missvisande. Nedan följer en figur där en observation har påverkat regressionslinjen och till följd av detta kommer prediktioner m.h.a. linjen vara missvisande. (13) Figur 5 För att upptäcka inflytelserika observationer kan Cook s Distance (CD) användas och är definierat enligt: 10

21 D i = ( ˆβ j ˆβ) T X T X( ˆβ j ˆβ) = r2 i p MS res p h ii (14) 1 h ii Där r i är en studentiserad residual och h ii är ett lägesmått för observation i. CD bygger på en observations läge i x-rummet, residualens storlek och effekten som denna observation har på regressionskoefficienterna. Om D i > 1 anses effekten på regressionskoefficienterna vara stor nog för att observation i ska klassificeras som inflytelserik [9, s.216]. Om antalet inflytelserika observationer är lågt relativt den totala mängden observationer kommer dessa att tas bort för att åtgärda eventuella problem. 2.4 Best Subsets Regression När en regressionsmodell ansätts med OLS är det inte garanterat att varje kovariat kommer vara signifikant. Detta leder till att modellen kan innehålla onödigt många variabler som ökar komplexiteten relativt mycket och har relativt lågt förhållande till responsvariabeln. Det är då av största intresse att ta bort dessa variabler för att den slutgiltiga modellen som erhålls ska vara enklare att tolka. Ett tillvägagångssätt för att reducera modellen är Best Subsets Regression (BSR). Algoritmen för BSR ser ut som följande: 1. Ansätt alla möjliga regressionsmodeller med ett kovariat inkluderat. Upprepa sedan detta fast med två kovariat inkluderade och fortsätt tills alla möjliga modeller med alla k kovariat är beräknade. 2. Jämför alla modeller med ett kovariat och välj den med lägst SS res som den bästa. Upprepa detta för modellerna med två kovariat och fortsätt tills den bästa modellen med k kovariat är hittad. 3. Jämför alla k regressionsmodeller och välj den bästa genom att använda de kriterier som presenteras i följande sektion [13, s.205]. Denna algoritm går inte att använda då antalet variabler överstiger cirka 30 stycken och då finns det alternativa modeller. Men i detta arbete behandlas endast elva stycken variabler vilket möjliggör applicering av BSR. Det finns flera alternativ till BSR men strategier för variabelselektion föreslår att BSR används när det är möjligt. Därför kommer inga alternativa metoder för variabelselektion att diskuteras [9, s.352] Kriterier för variabelselektion Förklaringsgrad Förklaringsgraden R 2 visar hur stor del av variationen i responsvariabeln som kan förklaras av regressionsmodellen och anges i procent. Problemet är att R 2 aldrig minskar även om den tillförda variabeln inte bidrar till att förklara variationen, vilket leder till att kriteriet alltid kommer att föreslå en modell med alla variabler inkluderade. Detta beror på att antalet frihetsgrader minskar när antalet variabler ökar. För att undvika detta problam kan den justerade förklaringsgraden R 2 jus 11

22 användas. Denna tar hänsyn till antalet variabler och frihetsgrader vilket leder till att R 2 jus endast ökar om den tillförda variabeln minskar variationen i Y [9, s.88]. Nedan följer formeln för den justerade förklaringsgraden: R 2 jus = 1 SS res/(n p) SS T /(n 1), (15) där SS T är den kvadrerade totala variationen i responsvariabeln. Genom att utgå från detta kriterium ska modellen med högst R 2 jus väljas Sum of Square Residuals När målet med en regression är att beskriva datamängden och undersöka effekten som kovariaten har på responsvariabeln är det fördelaktigt att välja en modell med relativt lågt SS res. Problematiken med detta kriterium är dock att SS res minskar för varje variabel som läggs till vilket resulterar i att ett minimum antas när alla kovariat inkluderas. När detta kriterium används för reducering av modellen bör variabler endast elimineras om det leder till en relativt liten ökning av SS res [9, s.337] AIC och BIC Akaike Information Criterion (AIC) och Bayesian Information Criterion (BIC) kan användas för att reducera modellen och utesluta variabler. Om en reducering är fördelaktig kommer AIC och BIC indikera detta genom att deras värden kommer att minska för den reducerade modellen. Om en reducering inte är fördelaktig kommer värdena på AIC och BIC att öka. Skillnaden mellan AIC och BIC är att den sistnämnda påverkas mer av antalet variabler än den förstnämnda vilket kan noteras från följande formler: AIC = n ln( SS res ) + 2k (16) n där k är antalet variabler. BIC = n ln( SS res ) + k ln(n) (17) n Mallow s C p Likt AIC och BIC används Mallow s C p för att jämföra olika modeller och är definierat enligt följande: C p = SS res MS res n + 2k (18) Mallow s C p mäter en modells Mean Square Error (MSE) och vid en jämförelse av två modeller bör modellen med lägst värde på Mallow s C p väljas. Detta kriterium är mindre viktigt när modellen har som mål att förklara samband och därför kommer det inte att användas [14]. 12

23 2.5 Ekonomisk teori Porters femkraftsmodell Porters femkraftsmodell är en modell utformad av Michael Porter år 1979 och används för att analysera en bransch utifrån fem konkurrenskrafter. Större krafter innebär intensivare konkurrens och lägre lönsamhet vilket gör branschen mindre attraktiv för nya aktörer. Genom analys av krafterna kan aktörer besluta om eventuellt inträde i branschen och befintliga aktörer får möjlighet att utforma strategier för att på bästa sätt kunna förhålla sig till sina konkurrenter för att ta marknadsandelar. Krafterna är som följer [15]: Kunders förhandlingsstyrka Kundens förhandlingsstyrka gentemot företag i branschen avgörs av ett antal faktorer. Finns det många företag att välja mellan ökar kundens förhandlingsstyrka. Tvärtom minskar förhandlingsstyrkan om antalet företag är få eller i särskilda fall, ett. Kundens priskänslighet, byteskostnader och utbud av substitut är andra faktorer som påverkar förhandlingsstyrkan. Leverantörers förhandlingsstyrka Även här påverkas förhandlingsstyrkan av förhållandet mellan antalet leverantörer och antalet kunder till leverantörerna i branschen. Om leverantörernas produkter eller tjänster är specifika och utgör en stor del av slutprodukten ökar förhandlingsstyrkan. Är det lätt att byta ut leverantörer minskar förhandlingsstyrkan. Hot från substitut Substitut är produkter eller tjänster som med annan teknik tillfredsställer det givna behovet, t.ex. tåg, flyg och bil eller lampa och stearinljus. Hot från substitut utgörs således inte av liknande produkter och tjänster från andra varumärken. Stort antal substitut i kombination med låga byteskostnader ökar hoten från substitut i form av pressade priser och därmed lägre lönsamhet. Konkurrens från nya aktörer Höga inträdesbarriärer i form av stora initiala investeringar och svårigheter att värva kompetent personal minskar hotet från nya aktörer. Interna stordriftsfördelar hos etablerade aktörer försvårar utvecklingen för mindre aktörer. Låga inträdesbarriärer gör det däremot lättare för nya aktörer att etablera sig vilket leder till att lönsamheten i branschen med tiden sjunker mot noll (perfekt konkurrensmarknad). Konkurrens mellan befintliga aktörer Höga initiala investeringar bidrar till låga incitament att avveckla verksamheten vid eventuell nedgång. Konkurrensen från befintliga aktörer är därför hög i branscher med höga inträdesbarriärer och låg i branscher med låga inträdesbarriärer. Beroende på om marknaden är mogen eller i tillväxtfasen kommer aktörer konkurrera om befintliga eller nya marknadsandelar, där den förstnämnda pressar priserna nedåt PEST PEST är en modell utformad för att identifiera makroekonomiska faktorers påverkan på företag i en viss bransch, en så kallad omvärldsanalys av externa faktorer. PEST står för political, economical, 13

24 social och technological vilka är de faktorer som analyseras. Utifrån analysen kan en strategi som företaget eller organisationen ska förhålla sig till utformas. Politiska Politiska faktorer förankras i hur regeringar styr ekonomierna och påverkar företag på olika sätt, vilket kan ha både positiva och negativa effekter. Genom lagar och regleringar, exempelvis konkurrensoch handelsregleringar, tvingas företag anpassa sin verksamhet för att kunna verka i branschen. Miljökrav och anställningslagar gynnar samhällen i helhet men försvårar arbetet för företagen medan skattepolitik har en direkt påverkan på företagens lönsamhet. Ekonomiska Ekonomiska faktorer omfattas av makroekonomiska variabler som räntelägen och valutakurser och har direkta effekter på företagens verksamhet. Företag kan vara olika utsatta för makroekonomiska fluktuationer men påverkas på ett eller annat sätt av landets ekonomiska tillväxt, inflationstakt och konjunkturcykler. Sociala Sociala faktorer inkluderar kulturella och demografiska aspekter som på olika sätt påverkar företagens verksamhet. Exempelvis kan en hög tillväxttakt av populationen bidra till större arbetskraft. Åldersoch inkomstfördelning av populationen har inverkan på konsumtionsmönster vilket i sin tur påverkar efterfrågan av företagens produkter och tjänster. Teknologiska De teknologiska faktorerna omfattas av forskning och innovationer. Utveckling av ny teknik i en bransch kan finna användningsområden i en annan. T.ex. kan statligt finansierad forskning bidrar till ny teknik för företag att använda. Dessutom kan nya teknologiska genombrott leda till att biltillverkarnas strategier behöver ändras. T.ex. har framkomsten av internet öppnat upp för en ny marknadsföringsplattform och vikten av sociala medier har lett till att en större del av marknadsföringen fokuseras där. 14

25 3 Metod 3.1 Data Insamling Datan som ligger till grund för denna analys består ursprungligen av 1245 stycken personbilar, samtliga med modellår Till varje bil finns uppgifter om bl.a. motorvolym, antal cylindrar, bränsleförbrukning, start/stopp-system etc. Typen av bilar varierar alltifrån småbilar i budgetklassen till exklusiva supersportbilar, från de flesta internationellt välkända personbilstillverkarna. Datan hämtades i ett excel-dokument direkt från den oberoende webbplatsen FuelEconomy.gov. FuelEconomy.gov underhålls av U.S. Department of Energy s (DOE s) Office of Energy Efficiency and Renewable Energy med data tillhandahållen av EPA [16]. EPA, United States Environmental Protection Agency, är en amerikansk statligt ägd organisation vars syfte är att informera konsumenter om olika bilars bränsleförbrukningar vid köp av bil. Med andra ord en legitim och trovärdig källa. Fordonens tjänstevikt är en faktor som anses ha stor inverkan på bränsleförbrukningen men fanns inte att tillgå i excel-arket. Denna data hämtades manuellt från ett antal olika webbplatser. Den primära källan för personbilars tjänstevikter var Bilsvar.se. Bilsvar är den svenska motsvarigheten till FuelEconomy.gov och är framtaget genom ett samarbete mellan Konsumentverket, Energimyndigheten, Naturvårdsverket samt Transportstyrelsen [17]. Av samma anledning anses Bilsvar som en trovärdig källa. I de fall data saknades användes biltillverkarnas egna uppgifter publicerade på respektive webbplats. Dessa är de primära källorna av information om bilarna men eftersom webbplatserna är svårnavigerad och långsamma togs beslutet att använda Bilsvar som huvudsaklig informationskälla Bearbetning Som tidigare nämnt saknades uppgifter om fordonens tjänstevikter. Av de ursprungligen 1244 bilarna hittades vikter för 1070 stycken. Resterande 174 togs bort. Bland dessa fanns även 46 stycken hybridbilar som av logiska skäl togs bort. Vad gäller bränsletyp drivs bilarna till största del av bensin. Bensin erbjuds med olika oktantal och i denna analys valde vi att slå samman samtliga varianter till en gemensam kategori bensin. De få bilar som drivs av diesel togs bort från datan. Dessutom kan det pågående införandet av miljözoner och dieselförbud i Europas storstäder leda till att efterfrågan på dieselbilar minskar. Experter inom området menar att biltillverkarna börjat investera mindre i utvecklingen av dieselmotorer till följd av detta och tror att slutet för dieselmotorer närmar sig. På grund av detta är en analys av dieselmotorer inte av intresse eftersom att industrin rör sig bort från dessa. Med liknande resonemang som för bränsletypen slogs samtliga typer av automatväxellådor samman. Dels på grund av att alla varianter saknar manuell koppling, men även för att eco-driving, med tydlig korrelation till bränsleförbrukningen, inte är möjligt i samma utsträckning som för manuella bilar, oavsett automattyp. Dessutom togs bilar med CVT bort eftersom att det var för få bilar med 15

26 denna växellådstyp i datamängden. Nära hälften av datan utgjordes av bilar med fyrhjulsdrift. Skillnaderna mellan de två olika typerna, på engelska 4-wheel-drive och all-wheel-drive, är små med marginell till ingen påverkan på bränsleförbrukningen [18]. Av detta skäl slogs de två typerna ihop till fyrhjulsdrift. Några enstaka bilar var utrustade med valbar fyrhjulsdrift. Dessa togs bort från datan då det rådde oklarheter huruvida fyrhjulsdriften eller tvåhjulsdriften använts vid testet. Antalet bilar med både kompressor och turbo var nio stycken. Det finns således risk för att regressionen blir missvisande, i synnerhet då samtliga var från en tillverkare. Dessa togs därför bort från datan. Resultatet av bearbetningen är data bestående av 999 observationer. 3.2 Val av variabler Responsvariabel Bränsleförbrukning - y Ett av målen med denna analys är att studera faktorer som påverkar personbilars bränsleförbrukning. Utifrån forskningsfrågorna valdes därför bränsleförbrukningen till responsvariabel. I datan anges bränsleförbrukningen för blandad, landsvägs- samt stadskörning. I denna analys valdes den blandade bränsleförbrukningen som responsvariabel. Blandad bränsleförbrukning är det viktade medelvärdet utav landsvägs- och stadskörning med vikten 45 % respektive 55 % [19] och har enheten liter per 100 km. I datan fanns tillverkarnas egna siffror. Dessa valde vi att exkludera från analysen för att istället använda EPA:s uppmätta värden i syfte att eliminera eventuella testskillnader tillverkarna emellan Förklaringsvariabler Förklaringsvariabler är faktorer som har någon form av inverkan på responsvariabeln, i detta fall bränsleförbrukningen. Det finns två typer av förklaringsvariabler, kvantitativa och kvalitativa. Nedan förklaras skillnaderna och vilka variabler som valts Kvantitativa Kvantitativa variabler är variabler som antar numeriska värden. Variablerna är som följer: Motorvolym - x 1 Motorvolym är summan av den volym som ryms mellan samtliga kolvars övre och nedre vändläge [20]. Denna varierar mellan 1,0 och 8,0 liter och är angiven med en decimal. Generellt gäller att högre motorvolym leder till en kraftfullare motor vilket bidrar till en högre bränsleförbrukning. Cylindrar - x 2 Variabeln antar de diskreta värdena 3, 4, 5, 6, 8, 10, 12 eller 16 och beskriver antalet cylindrar i motorn. Som med motorvolymen är ett större antal cylindrar oftast förknippat med högre prestanda 16

27 vilket av naturliga skäl innebär högre förbrukning. Växlar - x 3 Likt föregående variabel antar denna värdena 1, 4, 5, 6, 7, 8, 9 eller 10 och beskriver antalet växlar i växellådan. Vikt - x 4 Personbilarnas tjänstevikter varierar mellan 915 och 3182 kg Kvalitativa Kvalitativa variabler, även kallat kategoriska variabler, är sådana som endast kan anta vissa, på förhand bestämda, värden. Variablerna är som följer: Växellåda - x 5 Bilarna kan antingen vara utrustade med manuella eller automatiska växellådor. Växellåda är en dummy-variabel som antar värdet 1 för automat och 0 för manuell. Aspiration - x 6, x 7 Aspiration är effekthöjande system och förekommer vanligtvis i två varianter, turbo- och kompressormatning. En bil kan således vara utrustad med turbo, kompressor eller inget av dem. Denna kategori kommer att beskrivas med två dummy-variabler eftersom det finns tre stycken möjliga system som en bil kan ha. När en bil har egenskapen kompressor antar variabeln x 6 värdet 1 och x 7 värdet 0. Om en bil är utrustad med turbo gäller det omvända, d.v.s. x 6 antar värdet 0 och x 7 värdet 1. I det fall där en bil varken har turbo eller kompressor antar både x 6 och x 7 värdet 0. Effekten som beskrivs av att båda dummy-variablerna antar värdet 0 kallas för baseline. I detta fall är en naturligt aspirerad motor baseline. Cylinderdeaktivering - x 8 En bil utrustad med cylinderdeaktivering kan vid tillfällen, där hög prestanda inte är nödvändig, automatiskt deaktivera ett antal cylindrar i avsikt att sänka bränsleförbrukningen. Cylinderdeaktivering är en dummy-variabel som antar värdet 1 om bilen är utrustad med det och 0 om inte. Start/stopp - x 9 Start/stopp-funktionen stänger tillfälligt av motorn när bilen står stilla i syfte att minska bränsleförbrukningen. Start/stopp är således en dummy-variabel som antar värdet 1 om bilen är utrustad med det och 0 om inte. Drivning - x 10, x 11 Drivning anger om bilen är fram-, bak- eller fyrhjulsdriven. Detta är, precis som aspirationen, en kategorisk variabel med tre nivåer vilket betyder att kategorin kodas med två dummy-variabler. När en bil är framhjulsdriven antar variabeln x 10 värdet 1 och x 11 antar värdet 0. Det omvända gäller om bilen är bakhjulsdriven och i fallet där bilen är fyrhjulsdriven antar både x 10 och x 11 värdet 0. 17

28 3.3 Grundmodell Grundmodellen som ansätts består av elva stycken kovariat och ett intercept. Regressionsekvationen för grundmodellen ser ut som följande: y = β 0 + x 1 β 1 + x 2 β 2 + x 3 β 3 + x 4 β 4 + x 5 β 5 + x 6 β 6 + x 7 β 7 + x 8 β 8 + x 9 β 9 + x 10 β 10 + x 11 β 11 (19) Värdena för samtliga regressionskoefficienter med konfidensintervall på 95 %, den justerade förklaringsgraden och p-värdet tillhörande testvariabeln t 0, återges i följande tabell: Variabler Koefficienter P-värde Signifikant Konfidensintervall Intercept 5, Ja 4,5965 : 5,8427 Motorvolym 0, Ja 0,5861 : 0,9257 Cylindrar 0, Ja 0,3365 : 0,5271 Växlar -0, Ja -0,3242 : -0,2004 Vikt 0, Ja 0, : 0, Man.Växellåda 0, ,4379 Nej -0,1155 : 0,2666 Turbo 0, Ja 0,2911 : 0,6023 Kompressor 0,5496 0, Ja 0,2422 : 0,8570 Cylinderdeaktivering -0,4236 0,0002 Ja -0,6471 : -0,2001 Start/Stopp -0,1170 0,05488 Nej -0,2365 : 0, Framhjulsdrift -0, Ja -0,7837 : -0,4563 Bakhjulsdrift -0,2092 0,0104 Ja -0,3691 : -0,04931 Justerad förklaringsgrad 82,63 % Tabell 1 Alla kovariat förutom start/stopp och växellåda är statistiskt signifikanta men eftersom modellen inte validerats ännu tas inga åtgärder Validering av grundmodell Grundmodellen valideras för att undersöka om grundantaganden stämmer. Rubriker från modellvalideringssektionen används Homoskedasticitet och normalitet Innan en reducering av modellen görs valideras grundmodellen för att undersöka om grundantaganden som gjorts är rimliga. Nedan följer en Q-Q plot av grundmodellen: 18

29 Figur 6 Ovanstående figur visar att feltermerna inte följer en normalfördelning vilket är ett problem som måste åtgärdas. Nedan följer en figur där homoskedasticiteten undersöks: Figur 7 Figuren visar att residualernas spridning ökar längs x-axeln vilket påvisar heteroskedasticitet. Dessutom har vissa observationer relativt stora residualer enligt figuren vilket kan vara en indikation på att dessa observationer är inflytelserika. Båda ovanstående problem kan korrigeras med hjälp av en transformation av responsvariabeln vilket görs i slutet av modellvalideringen när alla problem identifierats. 19

30 Endogenitet Endogenitet undersöks med hjälp av nedanstående figurer: Figur 8 Figur 9 Figur 10 Figur 11 Eftersom att inga tydliga linjära mönster kan identifieras dras slutsatsen att endogenitet inte är ett problem för grundmodellen Multikollinjäritet För att undersöka multikollinjäriteten använd VIF och GVIF, vilka anges i tabellen nedan: 20

31 Variabler VIF GVIF GV IF 1 df Motorvolym 13, Cylindrar 8, Växlar 1, Vikt 2, Växellåda 1, Aspiration - 1,69 1, 69 Cylinderdeaktivering 1, Start/Stopp 1, Drivning - 1,75 1, 75 Tabell 2 Enligt denna är kovariaten motorvolym och cylindrar drabbade av multikollinjäritet. Detta kan bero på att motorvolym är en funktion av cylindrarnas slagvolym och de båda kovariaten kan därför innehålla nästan identisk information. För att åtgärda detta kommer kovariatet motorvolym att tas bort eftersom att antalet cylindrar är lättare att bestämma för en biltillverkare jämfört med motorvolymen. Genom att ta bort kovariatet sjunker den justerade förklaringsgraden till 81,3 % och kommer vara den nya referensen när ytterligare reduceringar görs. Nedan följer en tabell som visar att multikollinjäriteten har minskat avsevärt genom reduceringen: Variabler VIF GVIF GV IF 1 df Cylindrar 2, Växlar 1, Vikt 2, Växellåda 1, Aspiration - 1,28 1, 28 Cylinderdeaktivering 1, Start/Stopp 1, Drivning - 1,60 1, 60 Tabell Inflytelserika observationer För att hitta eventuella observationer som kan ha negativ påverkan på estimeringen av koefficienterna används Cook s Distance. Detta ger att ingen observation kan klassificieras som inflytelserik eftersom att värdet på CD understiger 1 för samtliga observationer. På grund av detta undersöks de observationer som har relativt stora värden på CD m.h.a. residualerna. Följande observationer hade värden på CD som utmärkte sig från resten av observationerna, vilket kan noteras i figur 12: 881, 615, 616, 617, 355, 261, 165, 619,

32 Figur 12 Sedan används residualerna för att avgöra vilka av dessa observationer som eventuellt bör tas bort. Detta görs genom att undersöka storleken på residualerna och endast behålla de observationer som har relativt stora värden på R-student residualerna. Vilket leder till att följande observationer antags vara inflytelserika: Bugatti Chiron Koenigsegg Agera RS Ford GT Lamborghini Aventador Kupé Lamborghini Aventador Roadster Lamborghini Aventador S-Kupé Pagani Huayra Mercedes-Benz G550 4x4 Att dessa observationer är inflytelserika är rimligt eftersom att de representerar supersportbilar med relativt höga förbrukningar. För att dessa observationer inte ska påverka förklaringsgraden negativt tas de bort från analysen vilket är möjligt att göra eftersom att relativt många observationer finns tillgängliga i datan Åtgärder När alla brister i grundmodellen blivit identifierade åtgärdas de med hjälp av metoderna föreslagna i teoriavsnittet. För att åtgärda heteroskedasticiteten och avvikelserna från normalfördelningen görs en Box-Cox-transformation. Transformationsparametern λ väljs till 0 eftersom att detta värde finns med i ett 95-procentigt konfidensintervall kring parametern. Utifrån detta görs en logtransformation av responsvariabeln och den nya Q-Q-plotten och residualplotten ser ut som följande: 22

33 Figur 13 Figur 14 Det framgår tydligt i residualplotten att homoskedasticitet råder och Q-Q-plotten visar att avvikelsen från normalfördelningen minskat avsevärt. Utöver detta har även den justerade förklaringsgraden ökat till 81,99 % vilket tyder på att regressionmodellen kan förklara en större del av variationen i responsvariabeln. De problem som identifierats har åtgärdats och alla antaganden som gjorts i avsnitt två anses vara rimliga. Den validerade grundmodellen och tillhörande regressionkoefficienter presenteras nedan och det minst signifikanta kovariatet har markerats med en asterisk: log y = β 0 + x 2 β 2 + x 3 β 3 + x 4 β 4 + x 5 β 5 + x 6 β 6 + x 7 β 7 + x 8 β 8 + x 9 β 9 + x 10 β 10 + x 11 β 11 (20) Variabler Koefficienter P-värde Signifikant Konfidensintervall Intercept 1, Ja 1,6894 : 1,7936 Cylindrar 0, Ja 0,05223 : 0,06103 Växlar -0, Ja -0,02423 : -0,01344 Vikt 0, Ja 0, : 0, Man.Växellåda 0, ,02207 Ja 0, : 0,03603 Turbo 0, ,88435 Nej* -0,01101 : 0,01277 Kompressor 0, ,00143 Ja 0,01681 : 0,07020 Cylinderdeaktivering -0, Ja -0,04369 : -0,00538 Start/Stopp -0, ,16734 Nej -0,01779 : 0, Framhjulsdrift -0, Ja -0,08587 : -0,05732 Bakhjulsdrift 0, ,07493 Nej -0, : 0,02597 Justerad förklaringsgrad 81,99 % Tabell 4 23

34 3.3.2 Reducering av grundmodell Grundmodellen som erhållits efter valideringen innehåller kovariat som inte längre är signifikanta vilket leder till att variansen av regressionskoefficienterna blir större och är problematiskt [9, s.331]. Dessutom är det av intresse att undersöka om det går att reducera modellen utan att den justerade förklaringsgraden sjunker avsevärt. Detta skulle betyda att den reducerade modellen kan förklara större delen av variationen i responsvariabeln med ett färre antal variabler vilket är önskvärt eftersom den slutgiltiga modellen blir enklare att tolka. Samtidigt är det av största intresse att undersöka samtliga faktorers påverkan och identifiera de som har störst inverkan över bränsleförbrukningen. När BSR används finns alltså en risk för att signifikanta kovariat reduceras vilket inte är önskvärt och därför kommer två olika reduceringar att genomföras. Sedan jämförs dessa två modeller och en slutgiltig modell väljs utifrån olika kriterier som presenterats samt utifrån syftet med rapporten Best Subsets Regression De olika modellerna som föreslås av Best Subsets Regression analyseras genom att undersöka de marginella skillnaderna för de olika kriterierna. Nedan följer en graf över hur den justerade förklaringsgraden ändras med antalet kovariat: Figur 15 Den justerade förklaringsgraden antar ett maxvärde på 82,00 % när nio stycken kovariat används i modellen vilket ger en högre förklaringsgrad än grundmodellen. Men om sex kovariat används är den justerade förklaringsgraden 81,85 % vilket är relativt liten minskning och anses därför vara fördelaktig. Utifrån detta bör inte mer än sex variabler användas i den slutgiltiga modellen. Nedan följer en graf över hur SS res ändras med antalet kovariat: 24

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser: 1 Uppgiftsbeskrivning Syftet med denna laboration var att utifrån uppmätt data avgöra: (i) Om något samband finnes mellan kroppstemperatur och hjärtfrekvens. (ii) Om någon signifikant skillnad i sockerhalt

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Kungliga Tekniska Högskolan Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Författare:

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression

Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression DEGREE PROJECT, IN APPLIED MATHEMATICS AND INDUSTRIAL ECONOMICS, FIRST LEVEL STOCKHOLM, SWEDEN 2015 Analys av variabler som påverkar lönsamheten i gymbranschen med multipel linjär regression REBECCA AXELSSON,

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Analys av bostadsrättspriset i Stockholms innerstad

Analys av bostadsrättspriset i Stockholms innerstad Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Följande resultat erhålls (enhet: 1000psi):

Följande resultat erhålls (enhet: 1000psi): Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling.

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

Laboration 2 multipel linjär regression

Laboration 2 multipel linjär regression Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi

Läs mer

Föreläsning 4. Kap 5,1-5,3

Föreläsning 4. Kap 5,1-5,3 Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course,

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

Sänkningen av parasitnivåerna i blodet

Sänkningen av parasitnivåerna i blodet 4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Finansiell statistik

Finansiell statistik Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

Föreläsning 13: Multipel Regression

Föreläsning 13: Multipel Regression Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017 Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26 Lite som vi inte hann med när

Läs mer

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen för kursen. Linjära statistiska modeller. 27 oktober STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 27 oktober 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida

Läs mer

Finansiell statistik. Multipel regression. 4 maj 2011

Finansiell statistik. Multipel regression. 4 maj 2011 Finansiell statistik Föreläsning 4 Multipel regression Jörgen Säve-Söderbergh 4 maj 2011 Samband mellan variabler Vi människor misstänker ofta att det finns många variabler som påverkar den variabel vi

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Bayesiansk statistik, 732g43, 7.5 hp

Bayesiansk statistik, 732g43, 7.5 hp Bayesiansk statistik, 732g43, 7.5 hp Moment 2 - Linjär regressionsanalys Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 1 / 29 Översikt moment 2: linjär

Läs mer

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 6 Statistik; teori och tillämpning i biologi 1 Analysis of Variance (ANOVA) (GB s. 202-218, BB s. 190-206) ANOVA är en metod som används när man ska undersöka skillnader mellan flera olika

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet T5 HT 2014 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus Hypotesprövning Man sätter upp en nollhypotes (H0) och en mothypotes (H1) H0: Ingen effekt H1:

Läs mer

En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer

En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2018 En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer PETER DAKERMANDJI DANTE FORSTÉN KTH SKOLAN FÖR TEKNIKVETENSKAP

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 29 mars 2008 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Sid (7) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift Nedanstående beräkningar från Minitab är gjorda för en Poissonfördelning med väntevärde λ = 4.

Läs mer

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB2 Skrivning i ekonometri onsdagen den 1 juni 211 1. Vi vill undersöka hur variationen i försäljningspriset för ett hus (i en liten stad i USA

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta? Tentamen i Matematisk statistik, S0001M, del 1, 2008-01-18 1. Ett företag som köper enheter från en underleverantör vet av erfarenhet att en viss andel av enheterna kommer att vara felaktiga. Sannolikheten

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Uppgift a b c d e f (vet ej) Poäng

Uppgift a b c d e f (vet ej) Poäng TENTAMEN: Statistisk modellering för I3, TMS161, måndagen den 9 januari 2006 kl 8.30-11:30 på V. Jour: Magnus Karlsson, tel: 772 42 91. Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2013-10-29 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Mykola

Läs mer

F7 Polynomregression och Dummyvariabler

F7 Polynomregression och Dummyvariabler F7 Polnomregression och Dummvariabler Antag att man börjar med enkel linjär regression. Kap Polnomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polnom av k:te ordningen

Läs mer

Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader

Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader Bilttäthet i Stockholms läns kommuner - en statistisk analys av kommunala skillnader Fatemeh Engqvist Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2017:23

Läs mer

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0004M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Eva Lövf Tentamensdatum 2016-03-21 Skrivtid 09.00-14.00

Läs mer

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas

Läs mer

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta

Läs mer

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B Föreläsning 4 Kap 3.5, 3.8 Material om index 732G71 Statistik B Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Höftledsdysplasi hos dansk-svensk gårdshund

Höftledsdysplasi hos dansk-svensk gårdshund Höftledsdysplasi hos dansk-svensk gårdshund Sjö A Sjö B Förekomst av parasitdrabbad öring i olika sjöar Sjö C Jämföra medelvärden hos kopplade stickprov Tio elitlöpare springer samma sträcka i en för dem

Läs mer

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 Statistiska Institutionen Patrik Zetterberg Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 2013-01-18 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p. Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: Betygsgränser: 732G21 Sambandsmodeller 2009-01-14,

Läs mer

Industriell matematik och statistik, LMA136 2013/14

Industriell matematik och statistik, LMA136 2013/14 Industriell matematik och statistik, LMA136 2013/14 7 Mars 2014 Disposition r Kondensintervall och hypotestest Kondensintervall Statistika Z (eller T) har fördelning F (Z en funktion av ˆθ och θ) q 1 α/2

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2017-08-15 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Prissättningsanalys av annonser på internet

Prissättningsanalys av annonser på internet EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2016 Prissättningsanalys av annonser på internet En analys av variabler som påverkar slutpriset GUSTAF ERLANDSSON CHRISTOFER TÄRNELL KTH KUNGLIGA

Läs mer