Analys av faktorer som påverkar bränsleförbrukningen i en personbil

Transkript

1 EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2018 Analys av faktorer som påverkar bränsleförbrukningen i en personbil Med multipel linjär regression FILIP JOVANOVIC PAUL SINGH KTH SKOLAN FÖR TEKNIKVETENSKAP

2

3 Analys av faktorer som påverkar bränsleförbrukningen i en personbil Med multipel linjär regression FILIP JOVANOVIC PAUL SINGH Examensarbete inom tillämpad matematik och industriell ekonomi Civilingenjörsutbildning i industriell ekonomi Kungliga Tekniska högskolan 2018 Handledare på KTH: Daniel Berglund, Gustav Martinsson Examinator: Henrik Hult

4 TRITA-SCI-GRU 2018:192 MAT-K 2018:11 Royal Institute of Technology School of Engineering Sciences KTH SCI SE Stockholm, Sweden URL:

5 Analys av faktorer som påverkar bränsleförbrukningen i en personbil: med multipel linjär regression. Sammanfattning Detta kandidatexamensarbete inom tillämpad matematik och industriell ekonomi undersöker olika faktorers påverkan på bränsleförbrukningen i personbilar. Detta görs genom att utföra en multipel linjär regression med programmet R. Dessutom utförs en analys av bilbranschen som täcker de interna och externa faktorerna som påverkar biltillverkare för att presentera en optimal strategi gällande FoU för biltillverkare med relativt låg omsättning. Denna analys är baserad på Porter s femkraftsmodell och en PEST-analys. Datan som används i regressionen är tillhandahållen av U.S. Environmental Protection Agency (EPA) och bestod av 1245 personbilar och bearbetades för att utföra regressionen. Resultaten från regressionsanalysen indikerar att det är möjligt att förklara cirka 80 % av bränsleförbrukningen i personbilar. Mer specifikt är det antalet cylindrar, typ av växellåda och cylinderdeaktiverings-system som har störst inverkan på bränsleförbrukningen. Dessutom visar den ekonomiska analysen av bilindustrin att starkt påverkande yttre faktorer som regleringar och ändrande kundpreferenser tillsammans med konkurrens från andra aktörer inom industrin utgör det största hotet. Den primära slutsaten av detta kandidatexamensarbete är att biltillverkare med relativt låg omsättning borde implementera cylinderdeaktiveringssystem och överge turbo-downsizing -trenden inom industrin. Tillika bör manuella växellådor överges för att reducera bränsleförbrukningen, produktionskostnaderna och öka komforten för konsumenter.

6

7 Analysis of factors affecting the fuel efficiency in a passenger car: using multiple linear regression. Abstract This thesis in applied mathematics and industrial economics investigates different factors affecting the fuel consumption in passenger cars. This is done by performing a multiple linear regression using the software R. Further, an analysis of the car industry is done covering the internal and external factors affecting the car manufacturers, in order to present an optimal strategy regarding RnD for car manufacturers having relatively low revenues. This analysis is based on Porter s five forces framework and a PEST-analysis. The data used for the regression has been gathered by the U.S. Environmental Protection Agency (EPA) and consists of 1245 passenger cars which was then processed in order to apply the regression. The results of the regression analysis performed indicated that it is possible to explain approximately 80% of the fuel consumption in passenger cars. More precisely, the number of cylinders, type of transmission and cylinder deactivation-system had the biggest impact on the fuel consumption. Furthermore the economic analysis of the industry revealed highly influencing external factors such as regulations and changing consumer preferences together with competition from other actors within the industry being the biggest threat. The main conclusion from this thesis is that car manufacturers having relatively small revenues should implement cylinder deactivation systems and abandon the turbo-downsizing trend within the industry. Furthermore manual gearboxes should be abandoned in order to reduce the fuel consumption and manufacturing costs while increase the comfort for the consumer.

8

9 Förord Vi vill tacka våra handledare Daniel Berglund och Gustav Martinsson från institutionen för Matematik respektive Industriell ekonomi och organisation för kontinuerligt stöd och input till vårt arbete. Dessutom vill vi rikta ett stort tack till Tatjana Pavlenko som bistått med vägledning under arbetets gång. Slutligen vill vi tacka våra opponenter Erik Malmgren, Markus Hilmersson, Karl Wallström samt Markus Wahlgren som bistått med konstruktiv kritik och goda råd.

10

11 Innehåll 1 Inledning Bakgrund Problemformulering Syfte och frågeställningar Avgränsningar Teori Multipel Linjär Regressionsanalys Ordinary Least Squares Variabler Antaganden Modellfel Multikollinjäritet Endogenitet Heteroskedasticitet Modellvalidering Normalitet Box-Cox transformation VIF Homoskedasticitet Hypotestest, p-värde och konfidensintervall Inflytelserika observationer Best Subsets Regression Kriterier för variabelselektion Förklaringsgrad Sum of Square Residuals AIC och BIC Mallow s C p Ekonomisk teori Porters femkraftsmodell PEST Metod Data Insamling Bearbetning Val av variabler Responsvariabel Förklaringsvariabler Kvantitativa Kvalitativa Grundmodell Validering av grundmodell

12 Homoskedasticitet och normalitet Endogenitet Multikollinjäritet Inflytelserika observationer Åtgärder Reducering av grundmodell Best Subsets Regression Alternativ reducering av grundmodell Val av slutgiltig modell Resultat Reducerad modell Validering av reducerad modell Homoskedasticitet och normalitet Endogenitet och inflytelserika observationer Diskussion Analys av slutgiltig modell Koefficienter Cylindrar Vikt Manuell växellåda Cylinderdeaktivering Drivning Växlar Turbo Start/stopp-system Branschanalys Porters femkraftsmodell PEST FoU i branschen Strategi Utgångspunkten Alternativa strategier Utvecklingsmöjligheter Slutsats 41 7 Referenser 42 2

13 1 Inledning 1.1 Bakgrund Den globala försäljningen av personbilar har haft en stadig ökning sedan 2014 och år 2017 såldes cirka 79 miljoner bilar i världen [1]. De största aktörerna på marknaden 2016 var Toyota Motor Company (Toyota) med intäkter på 254 miljarder dollar, Volkswagen AG (Volkswagen) med intäkter på 240 miljarder dollar och slutligen Daimler med intäkter på cirka 170 miljarder dollar [2]. Detta kan jämföras med den relativt mindre koncernen PSA Peugeot Citroen (PSA-gruppen) som hade cirka 65 miljarder dollar i intäkter samma år [3]. Trots att biltillverkarna lyckats leverera bilar med bättre bränsleförbrukning och minskad miljöpåverkan, bl.a. i form av minskad vattenförbrukning per tillverkad bil, har utsläppen av växthusgaser från transportbranschen ökat sedan 1995 [4]. Detta har att göra med den ökade efterfrågan på personbilar som förväntas att växa ännu mer under kommande år [4]. Konsumenter har blivit mer miljömedvetna på senare år vilket återspeglas i den ökade försäljningen av hybrid- och elbilar världen över [5, s.12]. Dessutom förväntas kommande generationerna vara mer miljömedvetna vilket kommer leda till att låg bränsleförbrukning och klimatpåverkan blir ett starkare konkurrensmedel inom branschen [6]. Utvecklingen inom branschen har sett ljus ut och dagens bilar är ofta utrustade med avancerade hjälpsystem som förbättrar säkerheten och ökar komforten. Framkomsten av dessa system har i allra högsta grad påverkats positivt av den höga konkurrensen inom branschen. För att möta utsläppskraven och den ökade efterfrågan på miljövänliga bilar krävs stora investeringar av biltillverkarna för att optimera drivlinan och andra smarta funktioner som cylinderdeaktivering och start/stopp [7, s.11]. Experter inom området menar att genombrott inom forskningen kring förbränningsmotorer kan förbättra bränsleförbrukningen med 75 % och det är därför av yttersta vikt för biltillverkarna att fokusera sin FoU rätt [8]. 1.2 Problemformulering Tillverkare försöker sänka bränsleförbrukningen och minska klimatpåverkan på olika sätt. Ford har t.ex. bytt ut stål mot aluminium i vissa bilar för att reducera vikten, Honda har bytt ut sina traditionella automatväxellådor mot steglösa växellådor och BMW använder bl.a. förbättrade aerodynamiska egenskaper i samklang med turbomotorer för att få ner bränsleförbrukningen [8]. Men om investeringar i dessa åtgärder skulle löna sig var troligtvis svårt att bedöma på förhand. En av svårigheterna med FoU inom branschen idag är osäkerheten kring investeringarna som görs för att optimera bränsleförbrukningen [7, s.9]. Det är därför viktigt för mindre biltillverkare, bl.a. PSA-gruppen, att investeringarna inom FoU prioriteras rätt. Med mindre intäkter och marknadsandelar kan en misslyckad FoU leda till man tappar marknadsandelar och i värsta fall till en konkurs. Lyckas man däremot med sin FoU kan man möta den ökade efterfrågan på miljövänliga bilar och ta större marknadsandelar gentemot andra tillverkare. 3

14 1.3 Syfte och frågeställningar Syftet med den här rapporten är att undersöka om bränsleförbrukning i en personbil kan förklaras m.h.a. en linjär modell av olika faktorer och sedan analysera vilka av dessa som påverkar bränsleförbrukning mest i en personbil. Utifrån det och en omvärldsanalys ska en relevant FoUstrategi föreslås för mindre biltillverkare. För att uppnå syftet med denna rapport kommer följande två forskningsfrågor att besvaras i rapporten: Hur bra kan olika faktorers påverkan på bränsleförbrukningen förklaras med hjälp av en linjär modell? Vilken strategi ska mindre biltillverkare ha gällande sin FoU och implementeringen av förbrukningsreducerande åtgärder för att öka sin konkurrenskraft? 1.4 Avgränsningar Rapporten kommer att avgränsas till bilar som använder fossila bränslen eftersom att datan som erhållits inte är applicerbar på hybridbilar. FoU-strategin som föreslås kommer främst att vara anpassad för att öka konkurrenskraften i I-länder och därför kommer U-länder att lämnas utanför rapporten. 4

15 2 Teori 2.1 Multipel Linjär Regressionsanalys När en regressionsanalys utförs ansätts en ekvation för att modellera förhållandet mellan en responsvariabel och en eller flera prediktionsvariabler även kallade regressorer eller kovariat. Modellen som ansätts när flera regressorer antas påverka responsvariabeln ser ut som följande: y i = β 0 + k β j x ij + ɛ i i = 1, 2,..., n (1) j=1 y i motsvarar responsvariabeln och x ij är det j:te kovariatet i den i:te observationen. ɛ i är en stokastisk felterm och parametrarna β 0 och β j är regressionskoefficienter som ska estimeras. Modellen som beskrivs av ovanstående ekvation kan även skrivas i matrisform och ges då av: Där Y = y 1. y n, X = Y = Xβ + ɛ (2) 1 x 11 x x 1k 1 x 21 x x 2k , β = 1 x n1 x n2... x nk β 0. β k, ɛ = 1.. ɛ ɛ n Ordinary Least Squares Målet när en linjär modell ansätts är att estimera värden på regressionskoefficienterna och ett tillvägagångssätt är att använda Ordinary Least Squares (OLS). När OLS används minimeras kvadratsumman av feltermerna och parametervektorn med de estimerade värdena betecknas med ˆβ. De estimerade värdena erhålls genom att minimera följande ekvation med avseende på β: n ɛ 2 i = ɛ T ɛ = (Y Xβ) T (Y Xβ) (3) i=1 Detta leder till normalekvationerna för OLS från vilka ˆβ erhålls vilken anges nedan tillsammans med normalekvationerna: X T X ˆβ = X T Y ˆβ = (X T X) 1 X T Y (4) OLS kommer leda till att ˆβ, under antagandena som görs i nästa kapitel, har vissa egenskaper som kan förkortas till BLUE. Detta står för Best Linear Unbiased Estimator och betyder att OLS leder till en estimering med lägsta möjliga varians givet att estimeringen är väntevärdesriktig. 5

16 2.1.2 Variabler När en regressionsanalys utförs används olika typer av variabler beroende på situationen och utgörs huvudsakligen av följande: 1) Kvantitativa variabler 2) Kvalitativa variabler Kvantitativa variabler beskriver en effekt som är kvantifierbar. Kvalitativa variabler, även kallade dummy-variabler, indikerar om en observation innehar en egenskap som är kopplad till variabeln [9, s.260]. Dummy-variablerna antar värdet 0 om en observation saknar egenskapen och värdet 1 om observationer innehar egenskapen. Genom att använda dummy-variablerna går det att ta hänsyn till icke-kvantifierbara egenskaper som kan ha en effekt på responsvariabeln Antaganden De antaganden som görs när modellen i ekvation (2) ansätts och ˆβ erhålls är följande: Feltermen har väntevärde noll. Detta krävs för att skattningen ˆβ ska vara väntevärdesriktig. Homoskedasticitet råder vilket innebär att feltermerna ɛ är oberoende och har konstant varians. Matrisen X är deterministisk och ranken av X T X är p. Om detta inte gäller går det inte att erhålla ˆβ genom OLS. Feltermerna är okorrelerade, d.v.s. värdet av ɛ i är oberoende av ɛ j för alla i skilda från j. Feltermerna är normalfördelade med väntevärde noll och konstant varians. Detta krävs för att möjliggöra hypotestestning av modellen och bestämma konfidensintervall för parametrarna. 2.2 Modellfel När modellen ansätts görs flera antaganden, främst kring feltermen ɛ, och när dessa antaganden inte håller introduceras fel i modellen. Detta påverkar bland annat estimeringen av koefficienterna och modellens validitet. Nedan sammanfattas de fel som är relevanta för detta arbete Multikollinjäritet Multikollinjäritet uppstår på grund av att minst två kovariat är korrelerade. Detta kan leda till att absolutbeloppen av kovariaten och deras varianser blir relativt stora vilket är ett problem eftersom att OLS-estimeringen ˆβ kommer vara bristande [9, s.290]. Orsaken till stora varianser och dåliga skattningar när flera kovariat är korrelerade kan förklaras genom att undersöka komponenterna av ˆβ som tidigare angivits i ekvation (4). Den första komponenten i denna ekvation består av en inverterad matris, (X T X) 1 och om kovariaten är korrelarade leder detta till att X T X blir illa-konditionerad eftersom att kolumnerna i X är linjärt beroende. Om multikollinjäritet kan återfinnas bland kovariaten görs en bedömning av hur allvarligt detta påverkar ˆβ och i vissa fall behöver inga åtgärder vidtas. Diagnostisering och åtgärder av detta problem beskrivs i senare kapitel. 6

17 2.2.2 Endogenitet Endogenitet uppstår när feltermen ɛ korrelerar med ett eller flera kovariat. Detta innebär att antagandet om att feltermen har väntevärde noll inte stämmer och ˆβ blir inte väntevärdesriktig. Dessutom leder endogenitet till att OLS ger icke-konsekventa estimeringar vilket påverkar modellens validitet, framförallt när den ska användas i syfte till att förklara hur kovariaten påverkar responsvariabeln [10, s.26] Heteroskedasticitet Heteroskedasticitet uppstår på grund av att feltermernas varians inte är konstant vilket går emot det grundläggande antagandet som krävs när en regressionsanalys utförs [9, s.172]. En anledning till varför detta problem uppstår kan vara att responsvariabeln följer en fördelning i vilken variansen beror av medelvärdet [9, s.172]. Betydelsen av detta för regressionen är att OLS inte längre leder till en estimering med lägsta möjliga varians vilket är oönskat eftersom att detta ökar osäkerheten i skattningen av parametrarna [9, s.173]. 2.3 Modellvalidering När en grundmodell är ansatt måste modellens lämplighet bedömas och antaganden som gjorts måste testas. Utifrån detta kan modellfel som nämnts tidigare upptäckas och åtgärdas. Valideringen av grundmodellen används sedan för att ta fram nya modeller eftersom grundmodellens lämplighet jämförs med reducerade modeller för att dra slutsatser om lämpliga reduceringar som bör göras Normalitet Feltermerna antas vara normalfördelade vilket är ett krav för att kunna dra slutsatser om parametrarnas betydelse för modellen. Om detta antagande inte håller ger OLS samma estimeringar som utan antagandet men tillförlitligheten går inte att bedöma. För att undersöka om feltermerna är normalfördelade kan en Normal Q-Q plot användas. Data som är perfekt normalfördelad kommer ligga längs den räta linjen i en Q-Q plot och om datapunkterna avviker relativt mycket från denna linje är antagandet om normalitet inte rimligt. I följande figurer illustreras hur data som är normalfördelad respektive icke-normalfördelad ser ut i Q-Q plot. 7

18 Figur 1: Figuren visar icke-normalfördelade feltermer. Figur 2: Figuren visar normalfördelade feltermer Box-Cox transformation Om feltermerna inte kan antas vara normalfördelade kan en transformation av responsvariabeln användas. Transformationen görs utifrån Box-Cox-metoden vilket ger att responsvariabel Y transformeras enligt följande [11] : { Y λ 1 Y (λ) = λ, när λ 0 (5) log(λ), när λ = 0 Parametern λ bestäms genom maximum-likelihoodmetoden och för att underlätta tolkningen av den transformerade variabeln är det föreslaget att använda avrunda lambda [9, s.183] VIF För att undersöka om åtgärder bör tas för att korrigera multikollinjäritet kan Variance Inflation Factor (VIF) användas. Dessa indikerar om ett kovariat är drabbat och hur allvarligt detta är. En tumregel som används som utgångspunkt är att ett VIF -värde som överskrider 5 kan kräva en åtgärd och ytterligare analys borde göras för att ta ett sådant beslut. Om VIF -värdet överskrider 10 är multikollinjäriteten allvarlig nog för att påverka estimeringen ˆβ och dess tillförlitlighet [9, s.296]. För kategoriska variabler som beskrivs av minst två dummy-variabler beror VIF -värdet på vilken baseline som väljs. Detta leder till att VIF -värdet måste beräknas med alla möjliga val av baselines för att utesluta att multikollinjäritet inte existerar. För att kringgå detta problem används Generalized Variance Inflation Factor (GVIF) som antar värdet 1 när ingen multikollinjäritet existerar och går mot oändligheten när korrelationen mellan variablerna är allvarlig. [12, s ] Tumregeln som används för VIF är även applicerbar på GVIF -värdet men då måste följande förhållande beaktas vilket indikerar att GVIF -värdet är samma som VIF -värdet när antalet frihetsgrader är ett: 1 V IF = GV IF 2 df (6) 8

19 2.3.4 Homoskedasticitet Homoskedasticitet är motsatsen till heteroskedasticitet och innebär att feltermerna har konstant varians. För att undersöka om homoskedasticitet råder används en residual plot där residualerna plottas mot de ansatta värdena. Om homoskedasticitet råder kommer spridningen av punkterna i plotten att vara relativt konstant och inga tydliga mönster ska kunna identifieras. Rekommendationer om att använda R-student residualerna kommer att följas när plotten görs [9, s.139]. R-student residualerna ser ut som följande: e i t i = (7) S(i) 2 (1 h ii) Där, S(i) 2 = (n p)ms res e 2 i /(1 hii), n p 1 e i = y i ŷ i, n = antal observationer, p = antal kovariat + 1 (8) Nedan följer en figur som illustrerar när variansen är konstant, homoskedasticitet råder, och när variansen inte är konstant. Figuren visar homoskedas- Figur 3: ticitet. Figuren visar heteroskedas- Figur 4: ticitet Hypotestest, p-värde och konfidensintervall Hypotesprövning kan användas för att undersöka hur signifikanta kovariaten är och om de bör inkluderas. En global hypotesprövning utförs m.h.a. ett F-test och undersöker om det finns ett förhållande mellan responsvariabeln och minst ett av kovariaten. Detta genom att ställa upp en nollhypotes och en mothypotes som formuleras i följande ekvation [9, s.84]: H 0 : β 1 = β 2 = = β k = 0, H 1 : β j 0 för minst ett j. (9) Om nollhypotesen antags vara trolig indikerar detta att det inte är möjligt att säkerställa att alla regressionskoefficienter är skilda från noll, vilket påvisar att det inte finns ett linjärt förhållande mellan responsvariabeln och kovariaten. För att göra en global hypotesprövning används följande testvariabel: F o = SS R /k SS res /(n k 1) = MS R MS res, där F o H 0 F (k, n k 1) (10) För att pröva hypotesen H 0 används p-värdet som är associerat till F 0 och om detta p-värde underskrider den givna signifikansnivån kan nollhypotesen förkastas. Signifikansnivån brukar sättas 9

20 till 0.05 eller 0.01 som standard och i detta arbete kommer 0.05 användas som signifikansnivå [13, s.68]. p-värdet anges av följande ekvation: p = P (F 0 > F (k, n k 1)) (11) För att göra en lokal hypotesprövning och undersöka om varje enskilt kovariat är signifikant används ett t-test där en testvariabel t 0 och korresponderande p-värde används på samma sätt som för F-testet. Hypotesen och testvariabeln ser ut som följande: H 0 : β j = 0, H 1 : β j 0 (12) t 0 = ˆβ j se( ˆβ j ) Signifikansen av ett kovariat är beroende av de redan inkluderade kovariaten i modellen. Detta innebär att när modellen reduceras måste nya p-värden beräknas och ligga till grund för ytterligare eventuella reduceringar [9, s.88] Inflytelserika observationer Observationer som är inflytelserika kan komma att påverka ansättningen av regressionslinjen negativt, eftersom att de tenderar att skifta regressionslinjen mot sig. Detta sker på grund av att OLS försöker minska kvadratsumman av residualerna men kan leda till att regressionslinjen blir missvisande. Nedan följer en figur där en observation har påverkat regressionslinjen och till följd av detta kommer prediktioner m.h.a. linjen vara missvisande. (13) Figur 5 För att upptäcka inflytelserika observationer kan Cook s Distance (CD) användas och är definierat enligt: 10

21 D i = ( ˆβ j ˆβ) T X T X( ˆβ j ˆβ) = r2 i p MS res p h ii (14) 1 h ii Där r i är en studentiserad residual och h ii är ett lägesmått för observation i. CD bygger på en observations läge i x-rummet, residualens storlek och effekten som denna observation har på regressionskoefficienterna. Om D i > 1 anses effekten på regressionskoefficienterna vara stor nog för att observation i ska klassificeras som inflytelserik [9, s.216]. Om antalet inflytelserika observationer är lågt relativt den totala mängden observationer kommer dessa att tas bort för att åtgärda eventuella problem. 2.4 Best Subsets Regression När en regressionsmodell ansätts med OLS är det inte garanterat att varje kovariat kommer vara signifikant. Detta leder till att modellen kan innehålla onödigt många variabler som ökar komplexiteten relativt mycket och har relativt lågt förhållande till responsvariabeln. Det är då av största intresse att ta bort dessa variabler för att den slutgiltiga modellen som erhålls ska vara enklare att tolka. Ett tillvägagångssätt för att reducera modellen är Best Subsets Regression (BSR). Algoritmen för BSR ser ut som följande: 1. Ansätt alla möjliga regressionsmodeller med ett kovariat inkluderat. Upprepa sedan detta fast med två kovariat inkluderade och fortsätt tills alla möjliga modeller med alla k kovariat är beräknade. 2. Jämför alla modeller med ett kovariat och välj den med lägst SS res som den bästa. Upprepa detta för modellerna med två kovariat och fortsätt tills den bästa modellen med k kovariat är hittad. 3. Jämför alla k regressionsmodeller och välj den bästa genom att använda de kriterier som presenteras i följande sektion [13, s.205]. Denna algoritm går inte att använda då antalet variabler överstiger cirka 30 stycken och då finns det alternativa modeller. Men i detta arbete behandlas endast elva stycken variabler vilket möjliggör applicering av BSR. Det finns flera alternativ till BSR men strategier för variabelselektion föreslår att BSR används när det är möjligt. Därför kommer inga alternativa metoder för variabelselektion att diskuteras [9, s.352] Kriterier för variabelselektion Förklaringsgrad Förklaringsgraden R 2 visar hur stor del av variationen i responsvariabeln som kan förklaras av regressionsmodellen och anges i procent. Problemet är att R 2 aldrig minskar även om den tillförda variabeln inte bidrar till att förklara variationen, vilket leder till att kriteriet alltid kommer att föreslå en modell med alla variabler inkluderade. Detta beror på att antalet frihetsgrader minskar när antalet variabler ökar. För att undvika detta problam kan den justerade förklaringsgraden R 2 jus 11

22 användas. Denna tar hänsyn till antalet variabler och frihetsgrader vilket leder till att R 2 jus endast ökar om den tillförda variabeln minskar variationen i Y [9, s.88]. Nedan följer formeln för den justerade förklaringsgraden: R 2 jus = 1 SS res/(n p) SS T /(n 1), (15) där SS T är den kvadrerade totala variationen i responsvariabeln. Genom att utgå från detta kriterium ska modellen med högst R 2 jus väljas Sum of Square Residuals När målet med en regression är att beskriva datamängden och undersöka effekten som kovariaten har på responsvariabeln är det fördelaktigt att välja en modell med relativt lågt SS res. Problematiken med detta kriterium är dock att SS res minskar för varje variabel som läggs till vilket resulterar i att ett minimum antas när alla kovariat inkluderas. När detta kriterium används för reducering av modellen bör variabler endast elimineras om det leder till en relativt liten ökning av SS res [9, s.337] AIC och BIC Akaike Information Criterion (AIC) och Bayesian Information Criterion (BIC) kan användas för att reducera modellen och utesluta variabler. Om en reducering är fördelaktig kommer AIC och BIC indikera detta genom att deras värden kommer att minska för den reducerade modellen. Om en reducering inte är fördelaktig kommer värdena på AIC och BIC att öka. Skillnaden mellan AIC och BIC är att den sistnämnda påverkas mer av antalet variabler än den förstnämnda vilket kan noteras från följande formler: AIC = n ln( SS res ) + 2k (16) n där k är antalet variabler. BIC = n ln( SS res ) + k ln(n) (17) n Mallow s C p Likt AIC och BIC används Mallow s C p för att jämföra olika modeller och är definierat enligt följande: C p = SS res MS res n + 2k (18) Mallow s C p mäter en modells Mean Square Error (MSE) och vid en jämförelse av två modeller bör modellen med lägst värde på Mallow s C p väljas. Detta kriterium är mindre viktigt när modellen har som mål att förklara samband och därför kommer det inte att användas [14]. 12

23 2.5 Ekonomisk teori Porters femkraftsmodell Porters femkraftsmodell är en modell utformad av Michael Porter år 1979 och används för att analysera en bransch utifrån fem konkurrenskrafter. Större krafter innebär intensivare konkurrens och lägre lönsamhet vilket gör branschen mindre attraktiv för nya aktörer. Genom analys av krafterna kan aktörer besluta om eventuellt inträde i branschen och befintliga aktörer får möjlighet att utforma strategier för att på bästa sätt kunna förhålla sig till sina konkurrenter för att ta marknadsandelar. Krafterna är som följer [15]: Kunders förhandlingsstyrka Kundens förhandlingsstyrka gentemot företag i branschen avgörs av ett antal faktorer. Finns det många företag att välja mellan ökar kundens förhandlingsstyrka. Tvärtom minskar förhandlingsstyrkan om antalet företag är få eller i särskilda fall, ett. Kundens priskänslighet, byteskostnader och utbud av substitut är andra faktorer som påverkar förhandlingsstyrkan. Leverantörers förhandlingsstyrka Även här påverkas förhandlingsstyrkan av förhållandet mellan antalet leverantörer och antalet kunder till leverantörerna i branschen. Om leverantörernas produkter eller tjänster är specifika och utgör en stor del av slutprodukten ökar förhandlingsstyrkan. Är det lätt att byta ut leverantörer minskar förhandlingsstyrkan. Hot från substitut Substitut är produkter eller tjänster som med annan teknik tillfredsställer det givna behovet, t.ex. tåg, flyg och bil eller lampa och stearinljus. Hot från substitut utgörs således inte av liknande produkter och tjänster från andra varumärken. Stort antal substitut i kombination med låga byteskostnader ökar hoten från substitut i form av pressade priser och därmed lägre lönsamhet. Konkurrens från nya aktörer Höga inträdesbarriärer i form av stora initiala investeringar och svårigheter att värva kompetent personal minskar hotet från nya aktörer. Interna stordriftsfördelar hos etablerade aktörer försvårar utvecklingen för mindre aktörer. Låga inträdesbarriärer gör det däremot lättare för nya aktörer att etablera sig vilket leder till att lönsamheten i branschen med tiden sjunker mot noll (perfekt konkurrensmarknad). Konkurrens mellan befintliga aktörer Höga initiala investeringar bidrar till låga incitament att avveckla verksamheten vid eventuell nedgång. Konkurrensen från befintliga aktörer är därför hög i branscher med höga inträdesbarriärer och låg i branscher med låga inträdesbarriärer. Beroende på om marknaden är mogen eller i tillväxtfasen kommer aktörer konkurrera om befintliga eller nya marknadsandelar, där den förstnämnda pressar priserna nedåt PEST PEST är en modell utformad för att identifiera makroekonomiska faktorers påverkan på företag i en viss bransch, en så kallad omvärldsanalys av externa faktorer. PEST står för political, economical, 13

24 social och technological vilka är de faktorer som analyseras. Utifrån analysen kan en strategi som företaget eller organisationen ska förhålla sig till utformas. Politiska Politiska faktorer förankras i hur regeringar styr ekonomierna och påverkar företag på olika sätt, vilket kan ha både positiva och negativa effekter. Genom lagar och regleringar, exempelvis konkurrensoch handelsregleringar, tvingas företag anpassa sin verksamhet för att kunna verka i branschen. Miljökrav och anställningslagar gynnar samhällen i helhet men försvårar arbetet för företagen medan skattepolitik har en direkt påverkan på företagens lönsamhet. Ekonomiska Ekonomiska faktorer omfattas av makroekonomiska variabler som räntelägen och valutakurser och har direkta effekter på företagens verksamhet. Företag kan vara olika utsatta för makroekonomiska fluktuationer men påverkas på ett eller annat sätt av landets ekonomiska tillväxt, inflationstakt och konjunkturcykler. Sociala Sociala faktorer inkluderar kulturella och demografiska aspekter som på olika sätt påverkar företagens verksamhet. Exempelvis kan en hög tillväxttakt av populationen bidra till större arbetskraft. Åldersoch inkomstfördelning av populationen har inverkan på konsumtionsmönster vilket i sin tur påverkar efterfrågan av företagens produkter och tjänster. Teknologiska De teknologiska faktorerna omfattas av forskning och innovationer. Utveckling av ny teknik i en bransch kan finna användningsområden i en annan. T.ex. kan statligt finansierad forskning bidrar till ny teknik för företag att använda. Dessutom kan nya teknologiska genombrott leda till att biltillverkarnas strategier behöver ändras. T.ex. har framkomsten av internet öppnat upp för en ny marknadsföringsplattform och vikten av sociala medier har lett till att en större del av marknadsföringen fokuseras där. 14

25 3 Metod 3.1 Data Insamling Datan som ligger till grund för denna analys består ursprungligen av 1245 stycken personbilar, samtliga med modellår Till varje bil finns uppgifter om bl.a. motorvolym, antal cylindrar, bränsleförbrukning, start/stopp-system etc. Typen av bilar varierar alltifrån småbilar i budgetklassen till exklusiva supersportbilar, från de flesta internationellt välkända personbilstillverkarna. Datan hämtades i ett excel-dokument direkt från den oberoende webbplatsen FuelEconomy.gov. FuelEconomy.gov underhålls av U.S. Department of Energy s (DOE s) Office of Energy Efficiency and Renewable Energy med data tillhandahållen av EPA [16]. EPA, United States Environmental Protection Agency, är en amerikansk statligt ägd organisation vars syfte är att informera konsumenter om olika bilars bränsleförbrukningar vid köp av bil. Med andra ord en legitim och trovärdig källa. Fordonens tjänstevikt är en faktor som anses ha stor inverkan på bränsleförbrukningen men fanns inte att tillgå i excel-arket. Denna data hämtades manuellt från ett antal olika webbplatser. Den primära källan för personbilars tjänstevikter var Bilsvar.se. Bilsvar är den svenska motsvarigheten till FuelEconomy.gov och är framtaget genom ett samarbete mellan Konsumentverket, Energimyndigheten, Naturvårdsverket samt Transportstyrelsen [17]. Av samma anledning anses Bilsvar som en trovärdig källa. I de fall data saknades användes biltillverkarnas egna uppgifter publicerade på respektive webbplats. Dessa är de primära källorna av information om bilarna men eftersom webbplatserna är svårnavigerad och långsamma togs beslutet att använda Bilsvar som huvudsaklig informationskälla Bearbetning Som tidigare nämnt saknades uppgifter om fordonens tjänstevikter. Av de ursprungligen 1244 bilarna hittades vikter för 1070 stycken. Resterande 174 togs bort. Bland dessa fanns även 46 stycken hybridbilar som av logiska skäl togs bort. Vad gäller bränsletyp drivs bilarna till största del av bensin. Bensin erbjuds med olika oktantal och i denna analys valde vi att slå samman samtliga varianter till en gemensam kategori bensin. De få bilar som drivs av diesel togs bort från datan. Dessutom kan det pågående införandet av miljözoner och dieselförbud i Europas storstäder leda till att efterfrågan på dieselbilar minskar. Experter inom området menar att biltillverkarna börjat investera mindre i utvecklingen av dieselmotorer till följd av detta och tror att slutet för dieselmotorer närmar sig. På grund av detta är en analys av dieselmotorer inte av intresse eftersom att industrin rör sig bort från dessa. Med liknande resonemang som för bränsletypen slogs samtliga typer av automatväxellådor samman. Dels på grund av att alla varianter saknar manuell koppling, men även för att eco-driving, med tydlig korrelation till bränsleförbrukningen, inte är möjligt i samma utsträckning som för manuella bilar, oavsett automattyp. Dessutom togs bilar med CVT bort eftersom att det var för få bilar med 15

26 denna växellådstyp i datamängden. Nära hälften av datan utgjordes av bilar med fyrhjulsdrift. Skillnaderna mellan de två olika typerna, på engelska 4-wheel-drive och all-wheel-drive, är små med marginell till ingen påverkan på bränsleförbrukningen [18]. Av detta skäl slogs de två typerna ihop till fyrhjulsdrift. Några enstaka bilar var utrustade med valbar fyrhjulsdrift. Dessa togs bort från datan då det rådde oklarheter huruvida fyrhjulsdriften eller tvåhjulsdriften använts vid testet. Antalet bilar med både kompressor och turbo var nio stycken. Det finns således risk för att regressionen blir missvisande, i synnerhet då samtliga var från en tillverkare. Dessa togs därför bort från datan. Resultatet av bearbetningen är data bestående av 999 observationer. 3.2 Val av variabler Responsvariabel Bränsleförbrukning - y Ett av målen med denna analys är att studera faktorer som påverkar personbilars bränsleförbrukning. Utifrån forskningsfrågorna valdes därför bränsleförbrukningen till responsvariabel. I datan anges bränsleförbrukningen för blandad, landsvägs- samt stadskörning. I denna analys valdes den blandade bränsleförbrukningen som responsvariabel. Blandad bränsleförbrukning är det viktade medelvärdet utav landsvägs- och stadskörning med vikten 45 % respektive 55 % [19] och har enheten liter per 100 km. I datan fanns tillverkarnas egna siffror. Dessa valde vi att exkludera från analysen för att istället använda EPA:s uppmätta värden i syfte att eliminera eventuella testskillnader tillverkarna emellan Förklaringsvariabler Förklaringsvariabler är faktorer som har någon form av inverkan på responsvariabeln, i detta fall bränsleförbrukningen. Det finns två typer av förklaringsvariabler, kvantitativa och kvalitativa. Nedan förklaras skillnaderna och vilka variabler som valts Kvantitativa Kvantitativa variabler är variabler som antar numeriska värden. Variablerna är som följer: Motorvolym - x 1 Motorvolym är summan av den volym som ryms mellan samtliga kolvars övre och nedre vändläge [20]. Denna varierar mellan 1,0 och 8,0 liter och är angiven med en decimal. Generellt gäller att högre motorvolym leder till en kraftfullare motor vilket bidrar till en högre bränsleförbrukning. Cylindrar - x 2 Variabeln antar de diskreta värdena 3, 4, 5, 6, 8, 10, 12 eller 16 och beskriver antalet cylindrar i motorn. Som med motorvolymen är ett större antal cylindrar oftast förknippat med högre prestanda 16

27 vilket av naturliga skäl innebär högre förbrukning. Växlar - x 3 Likt föregående variabel antar denna värdena 1, 4, 5, 6, 7, 8, 9 eller 10 och beskriver antalet växlar i växellådan. Vikt - x 4 Personbilarnas tjänstevikter varierar mellan 915 och 3182 kg Kvalitativa Kvalitativa variabler, även kallat kategoriska variabler, är sådana som endast kan anta vissa, på förhand bestämda, värden. Variablerna är som följer: Växellåda - x 5 Bilarna kan antingen vara utrustade med manuella eller automatiska växellådor. Växellåda är en dummy-variabel som antar värdet 1 för automat och 0 för manuell. Aspiration - x 6, x 7 Aspiration är effekthöjande system och förekommer vanligtvis i två varianter, turbo- och kompressormatning. En bil kan således vara utrustad med turbo, kompressor eller inget av dem. Denna kategori kommer att beskrivas med två dummy-variabler eftersom det finns tre stycken möjliga system som en bil kan ha. När en bil har egenskapen kompressor antar variabeln x 6 värdet 1 och x 7 värdet 0. Om en bil är utrustad med turbo gäller det omvända, d.v.s. x 6 antar värdet 0 och x 7 värdet 1. I det fall där en bil varken har turbo eller kompressor antar både x 6 och x 7 värdet 0. Effekten som beskrivs av att båda dummy-variablerna antar värdet 0 kallas för baseline. I detta fall är en naturligt aspirerad motor baseline. Cylinderdeaktivering - x 8 En bil utrustad med cylinderdeaktivering kan vid tillfällen, där hög prestanda inte är nödvändig, automatiskt deaktivera ett antal cylindrar i avsikt att sänka bränsleförbrukningen. Cylinderdeaktivering är en dummy-variabel som antar värdet 1 om bilen är utrustad med det och 0 om inte. Start/stopp - x 9 Start/stopp-funktionen stänger tillfälligt av motorn när bilen står stilla i syfte att minska bränsleförbrukningen. Start/stopp är således en dummy-variabel som antar värdet 1 om bilen är utrustad med det och 0 om inte. Drivning - x 10, x 11 Drivning anger om bilen är fram-, bak- eller fyrhjulsdriven. Detta är, precis som aspirationen, en kategorisk variabel med tre nivåer vilket betyder att kategorin kodas med två dummy-variabler. När en bil är framhjulsdriven antar variabeln x 10 värdet 1 och x 11 antar värdet 0. Det omvända gäller om bilen är bakhjulsdriven och i fallet där bilen är fyrhjulsdriven antar både x 10 och x 11 värdet 0. 17

28 3.3 Grundmodell Grundmodellen som ansätts består av elva stycken kovariat och ett intercept. Regressionsekvationen för grundmodellen ser ut som följande: y = β 0 + x 1 β 1 + x 2 β 2 + x 3 β 3 + x 4 β 4 + x 5 β 5 + x 6 β 6 + x 7 β 7 + x 8 β 8 + x 9 β 9 + x 10 β 10 + x 11 β 11 (19) Värdena för samtliga regressionskoefficienter med konfidensintervall på 95 %, den justerade förklaringsgraden och p-värdet tillhörande testvariabeln t 0, återges i följande tabell: Variabler Koefficienter P-värde Signifikant Konfidensintervall Intercept 5, Ja 4,5965 : 5,8427 Motorvolym 0, Ja 0,5861 : 0,9257 Cylindrar 0, Ja 0,3365 : 0,5271 Växlar -0, Ja -0,3242 : -0,2004 Vikt 0, Ja 0, : 0, Man.Växellåda 0, ,4379 Nej -0,1155 : 0,2666 Turbo 0, Ja 0,2911 : 0,6023 Kompressor 0,5496 0, Ja 0,2422 : 0,8570 Cylinderdeaktivering -0,4236 0,0002 Ja -0,6471 : -0,2001 Start/Stopp -0,1170 0,05488 Nej -0,2365 : 0, Framhjulsdrift -0, Ja -0,7837 : -0,4563 Bakhjulsdrift -0,2092 0,0104 Ja -0,3691 : -0,04931 Justerad förklaringsgrad 82,63 % Tabell 1 Alla kovariat förutom start/stopp och växellåda är statistiskt signifikanta men eftersom modellen inte validerats ännu tas inga åtgärder Validering av grundmodell Grundmodellen valideras för att undersöka om grundantaganden stämmer. Rubriker från modellvalideringssektionen används Homoskedasticitet och normalitet Innan en reducering av modellen görs valideras grundmodellen för att undersöka om grundantaganden som gjorts är rimliga. Nedan följer en Q-Q plot av grundmodellen: 18

29 Figur 6 Ovanstående figur visar att feltermerna inte följer en normalfördelning vilket är ett problem som måste åtgärdas. Nedan följer en figur där homoskedasticiteten undersöks: Figur 7 Figuren visar att residualernas spridning ökar längs x-axeln vilket påvisar heteroskedasticitet. Dessutom har vissa observationer relativt stora residualer enligt figuren vilket kan vara en indikation på att dessa observationer är inflytelserika. Båda ovanstående problem kan korrigeras med hjälp av en transformation av responsvariabeln vilket görs i slutet av modellvalideringen när alla problem identifierats. 19

30 Endogenitet Endogenitet undersöks med hjälp av nedanstående figurer: Figur 8 Figur 9 Figur 10 Figur 11 Eftersom att inga tydliga linjära mönster kan identifieras dras slutsatsen att endogenitet inte är ett problem för grundmodellen Multikollinjäritet För att undersöka multikollinjäriteten använd VIF och GVIF, vilka anges i tabellen nedan: 20

31 Variabler VIF GVIF GV IF 1 df Motorvolym 13, Cylindrar 8, Växlar 1, Vikt 2, Växellåda 1, Aspiration - 1,69 1, 69 Cylinderdeaktivering 1, Start/Stopp 1, Drivning - 1,75 1, 75 Tabell 2 Enligt denna är kovariaten motorvolym och cylindrar drabbade av multikollinjäritet. Detta kan bero på att motorvolym är en funktion av cylindrarnas slagvolym och de båda kovariaten kan därför innehålla nästan identisk information. För att åtgärda detta kommer kovariatet motorvolym att tas bort eftersom att antalet cylindrar är lättare att bestämma för en biltillverkare jämfört med motorvolymen. Genom att ta bort kovariatet sjunker den justerade förklaringsgraden till 81,3 % och kommer vara den nya referensen när ytterligare reduceringar görs. Nedan följer en tabell som visar att multikollinjäriteten har minskat avsevärt genom reduceringen: Variabler VIF GVIF GV IF 1 df Cylindrar 2, Växlar 1, Vikt 2, Växellåda 1, Aspiration - 1,28 1, 28 Cylinderdeaktivering 1, Start/Stopp 1, Drivning - 1,60 1, 60 Tabell Inflytelserika observationer För att hitta eventuella observationer som kan ha negativ påverkan på estimeringen av koefficienterna används Cook s Distance. Detta ger att ingen observation kan klassificieras som inflytelserik eftersom att värdet på CD understiger 1 för samtliga observationer. På grund av detta undersöks de observationer som har relativt stora värden på CD m.h.a. residualerna. Följande observationer hade värden på CD som utmärkte sig från resten av observationerna, vilket kan noteras i figur 12: 881, 615, 616, 617, 355, 261, 165, 619,

32 Figur 12 Sedan används residualerna för att avgöra vilka av dessa observationer som eventuellt bör tas bort. Detta görs genom att undersöka storleken på residualerna och endast behålla de observationer som har relativt stora värden på R-student residualerna. Vilket leder till att följande observationer antags vara inflytelserika: Bugatti Chiron Koenigsegg Agera RS Ford GT Lamborghini Aventador Kupé Lamborghini Aventador Roadster Lamborghini Aventador S-Kupé Pagani Huayra Mercedes-Benz G550 4x4 Att dessa observationer är inflytelserika är rimligt eftersom att de representerar supersportbilar med relativt höga förbrukningar. För att dessa observationer inte ska påverka förklaringsgraden negativt tas de bort från analysen vilket är möjligt att göra eftersom att relativt många observationer finns tillgängliga i datan Åtgärder När alla brister i grundmodellen blivit identifierade åtgärdas de med hjälp av metoderna föreslagna i teoriavsnittet. För att åtgärda heteroskedasticiteten och avvikelserna från normalfördelningen görs en Box-Cox-transformation. Transformationsparametern λ väljs till 0 eftersom att detta värde finns med i ett 95-procentigt konfidensintervall kring parametern. Utifrån detta görs en logtransformation av responsvariabeln och den nya Q-Q-plotten och residualplotten ser ut som följande: 22

33 Figur 13 Figur 14 Det framgår tydligt i residualplotten att homoskedasticitet råder och Q-Q-plotten visar att avvikelsen från normalfördelningen minskat avsevärt. Utöver detta har även den justerade förklaringsgraden ökat till 81,99 % vilket tyder på att regressionmodellen kan förklara en större del av variationen i responsvariabeln. De problem som identifierats har åtgärdats och alla antaganden som gjorts i avsnitt två anses vara rimliga. Den validerade grundmodellen och tillhörande regressionkoefficienter presenteras nedan och det minst signifikanta kovariatet har markerats med en asterisk: log y = β 0 + x 2 β 2 + x 3 β 3 + x 4 β 4 + x 5 β 5 + x 6 β 6 + x 7 β 7 + x 8 β 8 + x 9 β 9 + x 10 β 10 + x 11 β 11 (20) Variabler Koefficienter P-värde Signifikant Konfidensintervall Intercept 1, Ja 1,6894 : 1,7936 Cylindrar 0, Ja 0,05223 : 0,06103 Växlar -0, Ja -0,02423 : -0,01344 Vikt 0, Ja 0, : 0, Man.Växellåda 0, ,02207 Ja 0, : 0,03603 Turbo 0, ,88435 Nej* -0,01101 : 0,01277 Kompressor 0, ,00143 Ja 0,01681 : 0,07020 Cylinderdeaktivering -0, Ja -0,04369 : -0,00538 Start/Stopp -0, ,16734 Nej -0,01779 : 0, Framhjulsdrift -0, Ja -0,08587 : -0,05732 Bakhjulsdrift 0, ,07493 Nej -0, : 0,02597 Justerad förklaringsgrad 81,99 % Tabell 4 23

34 3.3.2 Reducering av grundmodell Grundmodellen som erhållits efter valideringen innehåller kovariat som inte längre är signifikanta vilket leder till att variansen av regressionskoefficienterna blir större och är problematiskt [9, s.331]. Dessutom är det av intresse att undersöka om det går att reducera modellen utan att den justerade förklaringsgraden sjunker avsevärt. Detta skulle betyda att den reducerade modellen kan förklara större delen av variationen i responsvariabeln med ett färre antal variabler vilket är önskvärt eftersom den slutgiltiga modellen blir enklare att tolka. Samtidigt är det av största intresse att undersöka samtliga faktorers påverkan och identifiera de som har störst inverkan över bränsleförbrukningen. När BSR används finns alltså en risk för att signifikanta kovariat reduceras vilket inte är önskvärt och därför kommer två olika reduceringar att genomföras. Sedan jämförs dessa två modeller och en slutgiltig modell väljs utifrån olika kriterier som presenterats samt utifrån syftet med rapporten Best Subsets Regression De olika modellerna som föreslås av Best Subsets Regression analyseras genom att undersöka de marginella skillnaderna för de olika kriterierna. Nedan följer en graf över hur den justerade förklaringsgraden ändras med antalet kovariat: Figur 15 Den justerade förklaringsgraden antar ett maxvärde på 82,00 % när nio stycken kovariat används i modellen vilket ger en högre förklaringsgrad än grundmodellen. Men om sex kovariat används är den justerade förklaringsgraden 81,85 % vilket är relativt liten minskning och anses därför vara fördelaktig. Utifrån detta bör inte mer än sex variabler användas i den slutgiltiga modellen. Nedan följer en graf över hur SS res ändras med antalet kovariat: 24

Visa mer