Analys av vilka faktorer som påverkar priset på maltwhisky

Storlek: px
Starta visningen från sidan:

Download "Analys av vilka faktorer som påverkar priset på maltwhisky"

Transkript

1 Analys av vilka faktorer som påverkar priset på maltwhisky Författare: VICTOR JANSSON, ERIK DAHLBERG, 21 maj 2013 SA104X Examensarbete inom teknisk fysik, grundnivå Kandidatexamensrapport Handledare: Gunnar Englund

2

3 Referat I detta arbete är syftet att undersöka vilka faktorer i allmänhet som påverkar en maltwhiskys pris och i synnerhet varumärkets påverkan. Data samlades in från Systembolaget ABs sortiment och manipulerades för att passa arbetets behov. Variabler som analyserades var maltwhiskyns ålder, alkoholhalt, märke, ursprungsland och, om det var en skotsk maltwhisky, skotska ursprungsregionen. En teoretisk modell togs fram och denna specificerades till tre olika huvudmodeller som skiljer på märke, ursprungsland och skotska regioner. För att bestämma vilka oberoende variabler som skulle inkluderas i varje huvudmodell beräknades Akaike Information Criterion corrected (AICc) för varje delmängd av huvudmodellen. Modellerna med lågt AICc och hög signifikans hos de oberoende variablerna valdes till de slutgiltiga modellerna. Dessa modeller utvärderades med multipel regressionsanalys för att kvantifiera variablernas påverkan på priset. Analysen visade att vissa ursprungsländer och varumärken hade signifikant inverkan på priset och även att vissa skotska regioner hade betydande inverkan på priset. Samtliga modeller gav ett acceptabelt resultat för deras syfte.

4 Abstract The aim of this report is to examine which factors in general that influence the price of a malt whisky and in particular the price effect of the brand. Data was gathered from Systembolaget AB s assortment and was manipulated to fit the needs of this project s needs. The variables that were analysed were the age and alcohol content of malt whisky, its brand, the country of origin and, if it was a Scotch malt whisky, the Scottish region of origin. A theoretical model was developed and three different main models were specified to part brand, country of origin and region. To be able to conclude which independant variables that were to be included in the final models the Akaike Information Criterion corrected (AICc) for every subset of the main model was calculated. The models with low AICc score and highly significant independant variables were chosen as the final models. These models were then evaluated using multiple regression analysis to quantify the variables price influence. The analysis showed that some of the brands and countries of origin had significant influence on the price and there could be seen some significant influence on the price in the Scottish whisky regions model as well. All models gave an acceptable result for the purpose of the report.

5 Innehåll 1 Inledning Bakgrund Maltwhisky Varumärke Land och region Datainsamling och manipulation Teoretisk bakgrund Terminologi Beroende och oberoende variabler Dummyvariabel Koefficient Felterm Signifikans Strukturtolkning Matematisk bakgrund för regressionsanalys Linjära regressionsmodellen Minstakvadratmetoden Antaganden Test- och modellanpassningsmetoder R 2 och Radj t-test AICc Att tänka på vid utförande av regressionsanalys Heteroskedasticitet Endogenitet Multikollinearitet Metod Litteraturstudier och utveckling av teoretisk modell Specificering av modellen Prediktion av koefficienter Datainsamling och manipulation

6 3.5 Estimation och evaluering av modellen Resultat Resultat för landmodellen Resultat för regionmodellen Resultat för varumärkemodellen Diskussion Landmodellen De inkluderade variablerna De eliminerade variablerna Regionmodellen De inkluderade variablerna De eliminerade variablerna Varumärkemodellen De inkluderade variablerna De eliminierade variablerna Jämförelse av de tre modellerna Felkällor Slutsats Förslag till vidare undersökning Litteraturförteckning 41

7 Kapitel 1 Inledning 1.1 Bakgrund Priset på en vara ska spegla vad konsumenter är villiga att betala för varan och varierar således med ett antal olika faktorer. De flesta av dessa faktorer är lätta för de flesta att förstå och många har en uppfattning om varför en vara har ett visst pris utan någon närmare undersökning. Ett enkelt exempel är en flaska läsk i affären: Priset bestäms utifrån råvarukostnad, produktionskostnad och att affären också ska göra vinst på varan. Utöver detta tillkommer mervärdesskatt till staten. Ett sådant sätt att prissätta varor uppfattas logiskt och korrekt. Det finns dock en del faktorer vars påverkan på priset inte alltid behöver vara direkt relaterad till en underliggande insats. I detta arbete ska det med hjälp av regressionsanalys undersökas hur dessa faktorer påverkar priset. 1.2 Maltwhisky Whisky, som på lågskotska betyder livets vatten, är en spritdryck gjord på spannmål och som tillverkats och druckits åtminstone sedan 1400-talet [1]. Whisky tillverkas i många olika länder världen över och spannmålet som används kan variera från land till land. Det absolut vanligaste spannmålet som använts i whisky som säljs i Sverige är kornmalt, men whiskyn kan också göras på t.ex. vete, majs eller ris. 84 % av all whisky som säljs på Systembolaget AB är maltwhisky [2] och denna rapport begränsar sig därför till just denna typ av whisky. Den största andelen maltwhisky som säljs i Sverige kommer från Skottland [2]. Skottland har väldigt strikta regler för hur spriten ska produceras för att få kallas maltwhisky. Maltwhiskyn ska till exempel lagras på ekfat, vars volym ej överstiger 700 liter, i minst 3 år och spriten får ej tillsättas annat än vatten och karamellfärg [4]. Det är tydligt att skotsk whisky har influerat whiskyproducenter från andra länder, som i sin egen produktion har tillämpat samma eller snarlika regelverk. 1

8 KAPITEL 1. INLEDNING 1.3 Varumärke En faktor som inte är en direkt följd av en kostnad är en produkts märke. Ett varumärkes värde varierar med tiden och beror inte bara av konkreta faktorer utan påverkas av psykologiska element. Varor som i övrigt uppfattas som väldigt lika kan ha stora skillnader i pris om den ena producerats av en mer renommerad tillverkare. I denna rapport kommer det inte att undersökas varför ett varumärke uppfattas olika av konsumenter utan i stället statistiskt bestämmas om, och i så fall hur mycket, ett märke påverkar priset. Att just maltwhisky valdes att analyseras i detta arbete var på grund av att produkterna i denna varugrupp i sig är väldigt lika varandra. Den tredje modellen i detta examensarbete behandlar därför olika varumärken av maltwhisky och resultaten för denna modell kan hittas i kapitel Land och region En annan faktor som antogs ha påverkan på priset för maltwhisky är vilket land den är producerad i. Att veta en whiskys ursprung kan många gånger säga mycket om just dennes smak och karaktär. En whisky från skotska ön Islay är exempelvis komplex och rökig i sin smak [2] medan svenska Mackmyras whisky i stället är maltig och nyanserad [2]. Whiskydrickare fattar ofta tycke för whisky från en viss region eftersom smaken till stor del är likadan för en whisky med samma härkomst. Av denna anledning ska det också undersöka hur en maltwhiskys ursprung påverkar priset. 92 % av maltwhiskysorterna i den använda datafilen är från Skottland och därför har ursprungsanalysen delats upp i två modeller. I den första modellen utreds det om det finns någon signifikant skillnad i pris på whisky från olika länder. I den andra modellen undersöks skillnaden i pris beroende på från vilken av de sex största regionerna i Skottland maltwhiskyn härstammar. Resultaten från dessa modeller hittas under kapitel 4.1 och Datainsamling och manipulation För att kunna utföra analysen inhämtades data från Systembolaget ABs sortimentsfil [2]. Genom att välja Systembolagets sortiment som data är det samma inköpare och prissättare. Systembolaget har inte heller något vinstsyfte [3] och som följd av detta kommer inte priset sättas olika för att försäljningen av någon specifik vara ska öka. Dessvärre var sortimentsfilen inte komplett med alla de variabler som skulle analyseras och således eftersöktes så många saknade värden som möjligt. De whiskys som sedan inte hade komplett data togs bort. För att minimera feltermer har också whisky som kostar över 1500 SEK per flaska (700 ml) tagits bort. Att detta gjordes var på grund av att whisky över detta pris endast finns i väldigt limiterade utgåvor 2

9 1.5. DATAINSAMLING OCH MANIPULATION och av just den anledningen fått ett väldigt högt pris. Att ta med dessa i analysen kommer endast ge en missanpassad modell och stora fel i vår regression. 3

10

11 Kapitel 2 Teoretisk bakgrund Detta kapitels syfte är att ge en introduktion till begreppen, matematiken och metoderna som ligger till grund när en regressionsanalys genomförs. Materialet är hämtat från Using Econometrics [5], Econometric analysis [6] och Topics on Applied Mathematical Statistics [7]. 2.1 Terminologi I denna del presenteras kort en del centrala begrepp som används upprepade gånger i rapporten Beroende och oberoende variabler I alla regressionsmodeller finns det ett antal oberoende variabler men som oftast bara en beroende variabel. Den beroende variabeln är den som estimeras med regressionsmodellen och kallas ibland även regressand eller observerad variabel. Vanlig notation: Y, Y i eller y i. De oberoende variablerna är alla variabler som används i modellen för att estimera den beroende och kallas även regressor, kovariat eller endast variabel. Vanlig notation: X, X i eller x i Dummyvariabel En variabel i modellen som endast antar värdet 0 eller 1 som också kallas binär variabel. Denna variabel kan användas då man exempelvis vill ha med kön i en modell. Den kan då exempelvis ha värdet 1 om det är man och värdet 0 om det är en kvinna: { 1 om man D kön = (2.1) 0 om kvinna En viss försiktighet måste dock tas för att inte hamna i the dummy variable trap vilket innebär att man har en dummyvariabel för man och en dummyvariabel för 5

12 KAPITEL 2. TEORETISK BAKGRUND kvinna: Y i = β 0 + β 1 D man + β 2 D kvinna + e i (2.2) Detta är en form för multikollinearitet och de problem som uppstår förklaras närmare i avsnitt Koefficient Regressionsmodellens koefficienter är de faktorer som estimeras när man anpassar sin modell till verkliga data. Vanlig notation: β eller β i. Koefficienterna är viktiga i strukturtolkningen av modellen, se nedan Felterm Även kallad residual. Är den del av vår modell som inte kan förklaras och är ett mått på hur stor skillnad det är mellan observerat och beräknat värde för varje specifikt y i. Vanlig notation är e i, men andra notationer som u i och ɛ i kan förekomma för att kunna skilja på olika feltermer Signifikans Ett uttryck som används för att beskriva hur relevant en variabel är i modellen. Hög signifikans betyder att variabeln är mycket relevant och användbar. Motsvarande betyder låg signifikans att variabeln är irrelevant och en utvärdering om den skall inkluderas eller inte bör genomföras. Ofta används olika signifikansnivåer för att bestämma om variabler skall inkluderas eller inte, varav den vanligaste är 5 % Strukturtolkning När man undersöker huruvida en oberoende variabel påverkar den beroende variabeln utförs en strukturtolkning. Då används koefficienterna och deras värden för att skapa en bild av hur stor påverkning varje oberoende variabel har. 2.2 Matematisk bakgrund för regressionsanalys I denna del presenteras de viktigaste matematiska formlerna och begreppen som används inom regressionsanalys. Det preciseras också vilka antaganden som görs och vilken innebörd dessa har Linjära regressionsmodellen Den klassiska, linjära regressionsmodellen ser ut på följande sätt Y i = β 0 + β 1 X 1i + β 2 X 2i + + β n X ni + e i (2.3) 6

13 2.2. MATEMATISK BAKGRUND FÖR REGRESSIONSANALYS där Y i är en observation som beror på variablerna X ni. Koefficienterna β i beräknas när ekvationen anpassas till observerade data och är unika för varje variabel. Den sista termen i högerledet, e i är den oförklarade feltermen eller avvikelsen som är unik för varje, med ekvationen estimerad, beroende variabel Y i. Av notationsmässiga orsaker kan det vara lämpligt att skriva ekvation 2.3 med matrisnotation enligt följande Y = Xβ + e (2.4) där Y 1 1 X 11 X 12 X 1i Y 2 Y =. n 1, X = 1 X 21 X 22 X 2i X n1 X n2 X ni Y i β 0 β 1 β = β 2. β i Minstakvadratmetoden e 1 e 2 (i + 1) 1, e =. i 1 e i Regressionsanalysens mål är att ta en rent teoretisk ekvation n (i + 1), Y i = β 0 + β i X i + ɛ i (2.5) och använda en mängd datapunkter för att skapa en estimerad ekvation där hatt indikerar estimerade koefficienter/variabler. Ŷ i = ˆβ 0 + ˆβ i X i (2.6) Den absolut vanligaste metoden för att göra detta kallas minstakvadratmetoden. Detta är en estimationsteknik som bestämmer ekvationens alla β så att summan av de kvadrerade residualerna minimeras. Alltså, minstakvadratmetoden minimerar n e 2 i (i = 1, 2,..., n) (2.7) i=1 där e i = Y i Ŷi vilket är ekvivalent med att säga att minstakvadratmetoden minimerar n (Y i Ŷi) 2 (i = 1, 2,..., n). (2.8) i=1 7

14 KAPITEL 2. TEORETISK BAKGRUND Minstakvadratmetoden lämpar sig bra som estimator då det framförallt är den enklaste av alla estimationstekniker. En annan viktig egenskap är faktumet att det är en kvadratsumma som minimeras. Residualerna mäter hur bra varje beräknade värde passar till varje observerade datapunkt och beräknas enligt e i = Y i Ŷi. Vid första anblick kan det tyckas bra att bara minimera summan över dessa, men residualerna kan bli både positiva och negativa och således kancellera varandra, därför tillämpas kvadratsumman. Att minimera summan av absolutvärdena är ett annat alternativ men detta anses mer komplicerat matematiskt och strider därför mot önskan att hålla analysen så enkel som möjligt. En annan viktig egenskap hos minstakvadratmetoden är att summan av residualerna blir 0, för bevis se Langs bok Topics on Applied Mathematical Statistics [7]. Minstakvadratmetoden kallas ibland the Best Linear Unbiased Estimator (BLUES) när ett antal antaganden, som presenteras i nästa del, är uppfyllda Antaganden A.H. Studenmund [5] listar sju klassiska antaganden varav de sex första är nödvändiga för att kunna utföra en linjär regression: 1. Regressionsmodellen är linjär, korrekt specifierad och har en additiv felterm. Att modellen är korrekt specifierad är ett viktigt antagande då en utelämnad variabel eller fel funktionell form försämrar modellen. Feltermen måste vara additiv och skall inte kunna multipliceras eller divideras med någon av de oberoende variablerna. 2. Feltermerna, e i, har ett villkorat medelvärde lika med 0. Det vill säga att: E(e i X 1i, X 2i,..., X ni ) = 0 (2.9) Detta säger att medelvärdet för hela distrubitionen är 0. För ett litet utdrag är det låg sannolikhet att medelvärdet är 0, men när antalet observationer ökar närmar sig medelvärdet Alla förklarande variabler är oberoende av feltermen. Ett antagande som är nödvändigt då det annars kommer ge felberäknade koefficienter. Till exempel om feltermen är positivt korrelerad med en variabel X i kommer den estimerade koefficienten ˆβ i att vara större än den borde vara och således inkorrekt. Detta uppstår ofta när man saknar en variabel i sin modell. 4. Feltermerna antas oberoende av varandra. Varje felterm beräknas oberoende från de andra. Om en systematisk korrelation mellan feltermer existerar kommer minsta kvadratmetoden inte kunna ge korrekta estimat av koefficienternas standardfel. 8

15 2.3. TEST- OCH MODELLANPASSNINGSMETODER 5. Feltermen har konstant varians σ 2 : E(e 2 i X 1i, X 2i,..., X ni ) = σ 2 (2.10) vilket innebär att feltermerna har samma varians. Om detta inte uppfylls kommer minstakvadratmetoden ge fel standardfel för koefficienterna. När detta antagandet uppfylls råder homoskedasticitet, i motsatt fall råder heteroskedasticitet vilket behandlas närmare i del Ingen förklarande variabel är en perfekt linjär funktion av en annan förklarande variabel. Om detta inte uppfylls är en eller flera av variablerna en linjär kombination av varandra, men skiljer sig genom t.ex. en faktor. Modellen kommer ge fel resultat då en relativ ändring i en av dessa variabler kommer leda till en exakt motsvarande ändring i en annan variabel även om beloppet av förändringarna skiljer sig. 7. Feltermerna är normalfördelade. Detta är ett frivilligt antagande som ofta behövs när det skall utföras hypotestestande. Detta säger något om formen på feltermernas distribution. 2.3 Test- och modellanpassningsmetoder Denna del syftar på att ge en kort introduktion till de metoder som användes för att avgöra vilka modeller som skulle användas och vilka variabler som hade tillräckligt hög signifikans för att inkluderas R 2 och R 2 adj En regressionsmodells R 2 är ett mått på hur stor del av modellens forändring i den beroende variabeln Y i som förklaras av dess oberoende variabler. R 2 uttrycks alltid i en siffra mellan 0 och 1 och ett R 2 -värde nära 1 är därför önskbart. Således blir 1 R 2 ett mått på den oförklarade delen i vår modell. Matematiskt definieras R 2 som ni=1 R 2 e 2 i = 1 ni=1 (Y i Ȳ ) (2.11) När R 2 används för att uppskatta hur bra en modell förklarar givna data måste det alltid tas hänsyn till att en inkluderad variabel sällan ger en förklarandegrad lika med 0. R 2 ökar alltså alltid en del när man lägger till nya variabler. Problemet här ligger i att R 2 inte säger något om standardfelet hos koefficienten och således är ett opålitligt mått på om variabeln skall inkluderas eller inte. För att åtgärda denna opålitlighet bör R 2 justeras med någon faktor när en ny variabel adderas till 9

16 KAPITEL 2. TEORETISK BAKGRUND modellen. Detta görs i Radj 2 Radj 2 = 1 n 1 ni=1 e 2 i n k 1 ni=1 (Y i Ȳ ) (2.12) där n = antal observationer k = antal oberoende variabler i modellen För att R adj 2 n i=1 skall kunna öka måste e2 i n i=1 (Y minska mer än n 1 i Ȳ ) n k 1 ökar. Detta betyder att den oförklarande andelen måste minska mer än den nya större reduceringsfaktorn. Som tidigare nämnt skall det alltid värderas om R 2 och Radj 2 verkligen ger ett bra mått på modellanpasningen, och andra kriterium som AICc och t-test bör också tas med i utvärderingen. Dessa tas upp i nästkommande delar t-test I denna rapport tillämpas något som kallas One-sample t-test vilket betyder att man beräknar ett t-värde enligt t = x σ 2 (2.13) /n där x är de observerade variablernas aritmetiska medelvärde σ 2 är variansen hos den observerade datamängden n är antalet observerade data. Det antas sedan att detta värde följer Students t-distribution och sätts t-värdet in i denna fås ett signifikanstal mellan 0 % och 100 %. Beroende på vilken signifikansnivå som önskas förkastas eller behålls den testade variabeln. Till exempel, har man en signifikansnivå på 5 % och en variabel får efter insättning i t-distributionen ett signifikanstal lika med 7 % anses denna insignifikant på 5 %-nivån AICc Akaike Information Criterion definieras enligt AIC = ln( ˆσ 2 ) + 2(k + 1) n (2.14) där σ 2 = k i=1 e2 i n, k är antalet oberoende variabler, n är antalet observationer. AIC är ett mått på hur bra en modell passar till en given datamängd och inkluderar förutom ett mått på modellanpassning också ett straff för antalet oberoende variabler. AIC är därmed ett bra mått på om en variabel skall inkluderas i modellen eller inte. Önskvärt är att uppnå så lågt AIC som möjligt. 10

17 2.4. ATT TÄNKA PÅ VID UTFÖRANDE AV REGRESSIONSANALYS I detta arbetet användes Akaike Information Criterion corrected, AICc, som är AICc = AIC + 2(k + 1)(k + 2) n k (2.15) Korrektionstermen som har inkluderats här kommer straffa antalet inkluderade variabler kraftigare än vanliga AIC. AICc rekommenderas att användas när n är lite eller k är stort. AICc kommer dock att konvergera mot AIC när n blir stort och kan därför användas i de flesta fall. 2.4 Att tänka på vid utförande av regressionsanalys När regressionsanalys utförs kan i huvudsak tre problem uppstå. Antagandet om homoskedasticitet kan vara felaktigt, det kan uppstå olika former för endogenitet och dessutom kan det förekomma multikollinearitet. I detta avsnitt presenteras dessa tre fall, hur de upptäcks samt vissa möjliga åtgärder Heteroskedasticitet Om antagande 5 i avsnitt inte gäller så råder heteroskedasticitet, d.v.s. E(e 2 i X 1i, X 2i,..., X ni ) = σi 2 och E(e i X) = 0. Detta betyder i kort att varje felterm har egen varians. Om en heteroskedastisk modell används som om den vore homoskedastisk kommer standardavvikelsen i de estimerade koefficienterna bli inkonsistent. Heteroskedasticitet kan upptäckas genom att titta på en plot av de estimerade värdena mot feltermerna. Om variansen ökar med högre predicerat värde råder troligtvis heteroskedasticitet Endogenitet Om en eller flera av de oberoende variablerna er korrelerade med feltermen uppstår endogenitet. När detta fenomen råder kommer minsta kvadratmetoden inte att producera konsistenta estimat av koefficienterna. Endogenitet kan uppstå på flera olika sätt, några av de vanligaste listas nedan. Utelämnande av relevanta variabler: När en viktig variabel som korrelerar med en annen variabel saknas i modellen leder detta till att den inkluderade variabeln korrelerar med feltermen och endogenitet uppstår. Ett exempel är en bils bränsleförbrukning. Låg bränsleförbrukning är önskvärt och borde därför öka priset på en bil, men kör man en regression på bilpris mot bränsleförbrukning kommer den antagligen visa att bilen blir dyrare när bränsleförbrukningen ökar. Här saknas variabeln motoreffekt som ger ökad bränsleförbrukning men också ökat pris. Feltermen inkluderar då motoreffekt 11

18 KAPITEL 2. TEORETISK BAKGRUND som är korrelerad med bränsleförbrukning. Åtgärden här är enkel, inkludera motoreffekt i modellen. Samtidighet: När den beroende variabeln påverkar en eller flera av de oberoende variablerna fås samtidighet. Ett kort exempel: Det skall undersökas om en större poliskår minskar antalet brott, men ett högre antal brott får också följden att myndigheterna ökar poliskårens storlek, vilket är ett fall av samtidighet. Partiskt urval och självselektion: Om någon annan faktor än själva värdet på variabeln påverkar hur observationer inkluderas i urvalet är urvalet partiskt. Självselektion är en form av partiskt urval där observationernas värde påverkas av någon yttre faktor som gör att just de observationerna inkluderas i urvalet. Ett exempel på det senare: En lärare vill analysera om lektionerna bidrar till bättre betyg och vill därför jämföra prestationerna från deltagande studenter med de som inte är närvarande. Här kan ett potensiellt problem vara att de studenter som väljer att studera hemma helt enkelt är duktigare och därför inte känner något behov av att delta på lektionerna. Således uppstår självselektion i variabeln väljer att stanna hemma och läraren kanske drar slutsatsen att lektionernas kvalité är låg Multikollinearitet Multikollinearitet uppstår när två eller flera variabler i modellen är perfekta eller nästan perfekta linjära kombinationer av varandra. Om korrelationskoefficienten mellan två variabler är 1 fås perfekt multikollinearitet, om den närmar sig 1 kallas det imperfekt multikollinearitet. Imperfekt multikollinearitet förhindrar inte minstakvadratmetoden från att ge ett resultat men kan innebära att flera koefficienter får dålig beskrivandegrad och således en dålig modell. Vid perfekt multikollinearitet ger inte minstakvadratmetoden en unik lösning och rent matematisk blir detta division med noll. Multikollinearitet kan upptäckas genom stora standardavvikelser på vissa koefficienter och är oftast ett resultat av fel modellformulering. Lösningen på problemet är som oftast att utelämna en av de korrelerande variablerna, t.ex. utelämna variabeln kvinna om variabeln man redan finns med då den ena variabeln här bestämmer värdet på den andra. 12

19 Kapitel 3 Metod Att göra en regressionsanalys är inte bara att räkna ut minstakvadratsummor och matriser. Genom att följa en del riktlinjer kan man lättare göra en bättre modell. I detta examensarbete har en sexstegssekvens föreslagen av A.H. Studenmund [5] använts: 1. Litteraturstudier och utveckling av teoretisk modell 2. Specificering av modellen 3. Prediktion av koefficienter 4. Datainsamling och manipulation 5. Estimation och evaluering av modellen 6. Dokumentera resultaten A.H. Studenmunds förslag på dessa riktlinjer är till för att utveckla en förståelse för hur professionella analytiker jobbar med ekonometri. Nedan i detta kapitel kommer de fem första delarna behandlas och den sjätte delen kommer sedan i nästa kapitel. 3.1 Litteraturstudier och utveckling av teoretisk modell Det första steget A.H. Studenmund rekommenderar är att söka litteratur som behandlar samma eller ett snarlikt problem. Detta görs både för att inhämta inspiration till eget arbete och i det förebyggande syfte att inte gå i samma fälla som tidigare undersökningar redan gjort. Om den modell analysen har som avsikt att använda redan har testats och i det fallet inte gett ett användbart resultat borde modellen omvärderas och förslagsvis ändras. Under litteraturstudierna som genomfördes för att utveckla modellen som kommer presenteras i detta arbete gjordes extensiv sökning i databaser på internet. Dessa sökningar gav inga givande resultat utan slutsatsen drogs att den typ av analys som 13

20 KAPITEL 3. METOD skulle utföras var, om inte ensam, relativt ovanlig. Det rekommenderade nästa steget är då att hitta teori från liknande ämnen och försöka applicera dessa på ämnet som skall analyseras. Under utvecklingen av den teoretiska modellen har framförallt två böcker använts, Using Econometrics [5] och Econometric Analysis [6], men även kursen Tillämpad Matematisk Statistik vid KTH, med tillhörande kurslitteratur [7], användes som teoretiskt underlag och inspiration. Detta arbetets syfte var att undersöka vilka faktorer som påverkar priset på maltwhisky i allmänhet och varumärkets betydelse i synnerhet. Med detta, samt ovan nämnda källor, som utgångspunkt sattes den teoretiska modellen till pris = (påverkande_f aktor_1) + (påverkande_f aktor_2) (påverkande_faktor_n) (3.1) Detta är till synes en väldigt grov modell men det är också syftet med denna del av arbetet. Här definieras hur problemet skall angripas och detta görs genom att anta att priset påverkas av ett antal skilda faktorer vilka kommer specificeras i nästa del och analyseras i senare delar. Tanken som ligger till grund for detta är alltså den samma som nämndes i kapitel 1.1, att priset på en handelsvara varierar med ett antal olika faktorer. 3.2 Specificering av modellen När en rå teoretisk modell tagits fram fortsatte arbetet med specificering av modellen. För att få relevanta modeller har den råa modellen delats upp i tre olika modeller. Samtliga modeller hade maltwhiskypriset som beroende variabel. Den första modellen (landmodellen) specificerades med följande oberoende variabler: Land, ålder, ålder 2 och alkoholhaltsdifferens från 40 %. Ålder som variabel mäter hur många år whiskyn lagrats på fat efter att den destillerats. Anledningen till att differensen från 40 % valdes är på grund av att majoriteten av maltwhiskyn i Systembolaget ABs sortimentsfil [2] (se nedan, kapitel 3.4) har en alkoholhalt i närheten av 40 %. Genom att välja variablerna på detta sätt blev koefficienter och data enklare och intuitivare att tyda. Varje land sattes som en dummyvariabel (se teorikapitlet 2.1.2). y i = β 0 + x (ålder)i β (ålder) + x (ålder 2 )i β (ålder 2 ) + x (alkoholhalt)i β (alkoholhalt) + D (land)i β (land) + e i (3.2) Den andra modellen (regionmodellen) specificerades med ålder och alkoholhaltsdifferens men landvariablerna byttes mot dummyvariabler för vilken skotsk region maltwhiskyn tillverkats i. Dessutom specificerades åldersvariabeln som maltwhiskyns åldersdifferens från 3-årig maltwhisky. I denna modell infördes även en 14

21 3.3. PREDIKTION AV KOEFFICIENTER annan dummyvariabel kallad D (selection). Anledningen att denna dummyvariabel införs är på grund av att det finns något som kallas för oberoende buteljerare. Dessa företag köper tunnor av en viss maltwhisky från destillerier och gör någon modifikation i lagringen och/eller förädlingen av maltwhiskyn till skillnad från originalet. Till exempel så säljs Laphroaig endast i ett fåtal officiella utgåvor vid Systembolaget AB medan det finns en stor mängd varianter av Laphroaig som buteljerats av flertalet av de oberoende buteljerarna. De kan ha modifierat maltwhiskyn genom att ha lagrat den på sherryekfat istället för vanliga ekfat, låtit bli att kylfiltrera whiskyn eller bara lagrat den längre på fat än vad den officiella utgåvan lagras. y i = β 0 + x (åldersdiff)i β (åldersdiff) + x (åldersdiff 2 )i β (ålderssdiff 2 ) + x (alkoholhalt)i β (alkoholhalt) + D (region)i β (region) + D (selection)i β (selection) + e i (3.3) Slutligen specificerades den tredje modellen (varumärkemodellen) med åldersoch alkoholhaltsdifferens och dummyvariabler för vilket märke det var på maltwhiskyn. Också i denna modellen inkluderas dummyvariabeln D (selection). y = β 0 + x (ålder)i β (ålder) + x (alkholhaltsdiff)i β (alkoholhaltsdiff) + x (ålder 2 )i β (ålder 2 )i + D (varumärke)i β (varumärke) + D (selection)i β (selection) + e (3.4) Dessa tre modeller var dock inte slutgiltiga eftersom det vid detta tillfälle ännu inte gick att bestämma om alla länder/regioner/varumärken hade någon statistisk signifikans för priset. Detta gjordes senare i arbetet och mer om detta kommer i kapitel 3.5 och 4 av rapporten. 3.3 Prediktion av koefficienter När de oberoende variablerna har valts är det viktigt att göra en prediktion av de olika koefficienternas påverkan på den beroende variabeln. I många fall används grundläggande kunskaper och sunt förnuft i denna del av analysen, men hela syftet är att skapa någon form av förväntan till hur modellen kommer bete sig vilket kan göra det lättare att inse om modellen är felspecificerad. Oavsett om så är fallet skapar detta ett underlag för diskussion om modellens grad av riktighet och är således en bra utgångspunkt för vidare analys. I nedanstående text används positiv påverkan för att beskriva en koefficient som ökar priset och vice versa för negativ påverkan. De tre modellerna som skall undersökas har alla två koefficienter gemensamt: ålder och alkoholhalt. För maltwhisky anses hög ålder ge en exklusivare vara då spriten lagrats på fat längre tid och således går priset upp med ålder. Denna koefficient antas därför ha en positiv påverkan på priset. 15

22 KAPITEL 3. METOD Alkoholhalt är en variabel som måste behandlas med viss försiktighet då svenska alkohollagar gör att priset automatiskt ökar med högre alkoholhalt i spritdrycken. Detta kompenserade dock för innan modellerna estimerades (hur detta genomfördes beskrivs i kapitel 3.4) så att koefficienten enbart behandlar hur maltwhiskyns värde varierar med alkoholhalten. För maltwhisky är alkoholhaltens påverkan lite mer komplex än ålderns påverkan men i allmänhet kan man säga att också denna koefficient kommer ha positiv påverkan på priset. Detta för att en maltwhisky med högre alkoholhalt troligtvis inte tillsatts lika mycket vatten och mängden whisky från varje fat blir därför mindre. Ett exempel på detta är så kallad cask strength whisky som inte tillsätts vatten överhuvudtaget utan buteljeras direkt från tunnan. Sådan maltwhisky har ofta ett pris som är något högre än den vanliga utgåvan av samma maltwhisky. I den första modellen är de särskiljande variablerna olika länder. Då de flesta länder har en viss spridning i sina whiskytyper är det svårt att förutspå hur varje lands koefficient kommer påverka priset, men ett antagande skulle kunna vara att Skottland som whiskyns upphovsland kommer att ha en viss positiv påverkan. Dock är Skottland den klart största whiskyproducenten och har därför också den största spridningen i pris vilket kan göra att påverkan inte blir lika tydlig som förväntad eller rentav helt motsatt. Ett land som Sverige, som bara finns representerat med ett märke i analysen, kommer antagligen ha en mycket tydligare påverkan då all dess maltwhisky hamnar i en karakteristisk priskategori. De särskiljande variablerna i den andra modellen är de klassiska skotska whiskyregionerna. De flesta regionerna i Skottland producerar väldigt mycket maltwhisky och spridningen i pris är stor inom varje region. Detta gör det extremt svårt att förutspå påverkan från varje enskild region och därför undviks detta i denna del av analysen. Den sista modellen särskiljdes genom att de oberoende variablerna var olika varumärken samt selectionvariabeln. I kapitel 3.5 beskrivs vilka varumärken som analyseras och varför, men generellt antas det att de flesta kända maltwhiskyvarumärken har en viss positiv påverkan på priset. För några maltwhiskys så som Macallan och Mackmyra förväntas en förhållandevis stor positiv påverkan, om de skulle inkluderas i modellen. För Macallan tros detta vara på grund av att detta är ett av de mer kända och exklusivare varumärken av maltwhisky. Mackmyra lagras sällan längre än 5 år och ålderskoefficienten borde alltså inte ha lika stor påverkan som för många andra maltwhiskymärken. Mackmyrakoefficienten uppskattas alltså innehålla avsaknaden av prispåverkan från ålderskoefficienten. Selectionvariabeln antas ha en positiv påverkan på priset då många av de så kallade buteljerarna anses ha mycket goda kunskaper om maltwhisky och därför lyckas välja speciellt goda kombinationer till sina egna utgåvor av redan kända maltwhiskys. Dessa säljs också i begränsad utgåva vilket bör öka priset. 16

23 3.4. DATAINSAMLING OCH MANIPULATION 3.4 Datainsamling och manipulation En av de absolut viktigaste sakerna när man gör en regressionsanalys är att ha en bra uppsättning data. Hela regressionen bygger ju på just datan och om datan är inkonsekvent kommer också resultatet bli detsamma. För att priset på varje maltwhisky skulle ha en så likvärdig prissättning som möjligt valdes till detta examensarbete Systembolaget ABs sortiment som underlag. Systembolaget har inte som syfte att gå med vinst (även om de går med vinst) [3] och priset borde alltså av Systembolaget sättas direkt relaterat till vad respektive leverantör tar betalt för varan. Systembolagets sortiment finns öppet tillgängligt för nedladdning på deras hemsida [2] som en Microsoft Excelfil. Dessvärre var Systembolagets sortimentsfil inte komplett för detta arbetets syfte. För att datan skulle kunna användas i IBM SPSS Statistics behövde samtliga variabler som skulle undersökas ha en egen kolumn i kalkylarket. Sortimentsfilen behövde alltså manipuleras: För en del maltwhisky saknades åldern helt vilken i dessa fall söktes upp på internet. Åldern lades sedan som sin egen kolumn och detta gjordes också med alkoholhaltens differens från 40 %. Varje dummyvariabel för länder, regioner och varumärken behövde läggas till och dummyvariabeln D (selection) lades även till i detta steg. En undersökning av hur fördelningen av maltwhiskypriset såg ut gjordes för att se hur väl detta kunde anpassas till en linjär modell (se figur 3.1). Figur 3.1. En graf över pris för varje maltwhisky i Systembolaget ABs sortimentsfil [2]. Med denna fördelning som underlag togs beslutet att exkludera de knappt 100 observationer som översteg 1500 SEK (inklusive alkoholskatt och moms). De maltwhiskys som översteg 1500 SEK var nästan uteslutande sådana som utgetts i mycket begränsad utgåva och på grund av detta fått en mycket hög prissättning. Denna 17

24 KAPITEL 3. METOD typ av utgåvor var något som inte var tänkt att undersökas i detta arbete och kunde därför utan vidare tas bort. I Sverige påförs alkoholskatt på alla typer av spritdryck. Denna är direkt relaterad till alkoholhalten på spritdrycken (alkoholskatten ligger för närvarande på 501,41 SEK per liter ren sprit). Med anledning av att en av variablerna i modellerna är just alkoholhalt korrigerades priset för att utesluta alkoholskatten. Mervärdesskatten exkluderas också på grund av att mervärdesskatten läggs på efter alkoholskatten och egentligen inte gör något annat än att öka priset med 25 % vilket inte har någon betydelse för regressionen eller analysen. 3.5 Estimation och evaluering av modellen När arbetet kommit till denna punkt i A.H. Studenmunds sexstegssekvens [5] var det den sista förberedande delen innan en regression skulle köras. I detta stadium hade det tagits fram tre modeller som med största sannolikhet innehöll flera irrelevanta variabler som av olika anledningarna inte hade någon signifikans för modellerna. För att få en så välanpassad modell som möjligt har Akaike Information Criterion corrected (AICc) och t-test (se teoridelen) använts i detta examensarbete. Att testa AICc för alla delmängder av huvudmodellen var en inbyggd funktion (modellbyggaren) i IBM SPSS Statistics. Modellbyggaren kördes på en huvudmodell åt gången (huvudmodellerna nämns i kapitel 3.2). När modellbyggaren hade körts i SPSS fanns de 10 modeller med lägst AICc specificerade. För att avgöra om varje variabel som valts ut av modellbyggaren faktiskt var signifikant för modellen undersöktes t-värdet för variablerna när en regression kördes. För en del av modellerna med lägst AICc föreslogs att variabler som i ett t-test var statistiskt insignifikanta (för modelleringen av maltwhiskypriset) skulle tas med. Om detta var fallet, och variabeln i fråga inte ansågs vara signifikant i en rent logisk bemärkelse, undersöktes den modell med näst lägst AICc. Efter att modellbyggaren körts och t-test utförts för att hitta de bästa modellerna återstod själva regressionen. För vardera av de tre slutgiltiga modellerna kördes nu en regression i SPSS. Resultatet från residualerna evaluerades och en granskning av feltermerna gjordes för att klargöra att dessa var normalfördelade. För att kontrollera att det inte fanns någon heteroskedasticitet plottades det från regressionen estimerade maltwhiskypriset (den beroende variabeln) mot residualerna. Om en antydan av att residualernas varians såg ut att öka med ett högre pris skulle det kunna vara ett tecken på heteroskedasticitet. Slutligen undersöktes regressionens koefficienter och resultaten analyserades. Dessa presenteras i nästa kapitel. 18

25 Kapitel 4 Resultat Nedan i detta kapitel finns resultatet för regressionskörningarna av de slutliga modellerna landmodellen, regionmodellen och varumärkemodellen i nämnd ordning. Som nämndes i metodkapitlet ovan användes i detta arbete SPSS inbyggda funktion modellbyggaren. Denna funktion beräknar AICc för alla möjliga delmängder av huvudmodellen. 4.1 Resultat för landmodellen Antal observationer i datafilen för denna modell var 939 stycken. För landmodellen kördes modellbyggaren med variablerna i tabell 4.1. Ålder och Ålder 2 angavs i år, alkoholhalt angavs i antal procentenheter över 40 % (40 % är lägsta alkoholhalten för maltwhisky i Systembolagets sortiment) och varje land hade en varsin dummyvariabel. Variabler Ålder Ålder 2 Alkoholhalt Australien England Frankrike Indien Irland Japan Kanada Nederländerna Skottland Sverige Taiwan Tjeckien USA Tabell 4.1. Ursprungliga variabler som användes i modellbyggaren för landmodellen Från modellbyggarens resultat kunde det klargöras att det fanns flera modeller med AICc-värde väldigt nära AICc min (värdet för modellen med lägst AICc). Fler än 10 modeller låg inom AICc min AICc i < 2 (se figur 4.1) och för att hitta den modell som faktiskt gav variabler med en signifikansnivå på högst 5 % kördes 19

26 KAPITEL 4. RESULTAT regressioner på först modellen med lägst AICc och sedan modellen med näst lägst AICc o.s.v. tills alla variabler i modellen låg inom det 95 % konfidensintervallet. Figur 4.1. Bild som visar hur AICc-värdet (Information Criterion) förändrades beroende på inkluderade variabler för landmodellen. En bock betyder att variabeln inkluderats i modellen. Modell 3 i figur 4.1 gav variabler som alla låg inom signifikansnivån 5 % och denna valdes alltså till den slutliga modellen. Resultatet för de estimerade koefficienterna från regressionen visas nedan i tabell 4.2. En graf över de standardiserade residualernas fördelning ritades upp för att kunna kontrollera att feltermerna var normalfördelade, se figur 4.2. R 2 och Radj 2 för regressionen av landmodellen kan ses i tabell

27 4.1. RESULTAT FÖR LANDMODELLEN Koefficienter Modell ˆβ Standard- t-värde Signifikansavvikelse nivå Konstant 281,611 27,995 10,059 0,000 Ålder 19,745 3,407 5,795 0,000 Ålder 2 0,242 0,101 2,400 0,017 Alkoholhalt 13,173 0,788 16,726 0,000 Australien 337,485 73,500 4,592 0,000 Indien -181,388 58,461-3,103 0,002 Irland -265,227 43,158-6,145 0,000 Skottland -245,324 23,376-10,495 0,000 Sverige 91,421 46,259 1,976 0,048 Tjeckien -486, ,043-3,424 0,001 Tabell 4.2. Koefficienter från regression av landmodellen. Resultat med 3 decimaler. R 2 R 2 adj 0,651 0,648 Tabell 4.3. R 2 och R 2 adj för landmodellen. Figur 4.2. Standardiserade residualernas (varje residual dividerad med standardavvikelsen) fördelning för landmodellen. Svarta linjen är en normalfördelning. 21

28 KAPITEL 4. RESULTAT 4.2 Resultat för regionmodellen Antal observationer i datafilen för denna modell var 857 stycken. Denna datafil hade manipulerats för att endast innehålla maltwhisky från skotska regioner. För regionmodellen kördes modellbyggaren med variablerna i tabell 4.4. Ålder och Ålder 2 angavs i år, alkoholhalt angavs i antal procentenheter över 40 % (40 % är lägsta alkoholhalten för maltwhisky i Systembolagets sortiment) och varje region hade en varsin dummyvariabel. Denna modell innehöll även dummyvariabeln Selection som nämndes i metodkapitlet. Variabler Ålder Ålder 2 Alkoholhalt Campbeltown Highlands Islands Speyside Islay Lowlands Tabell 4.4. Ursprungliga variabler som användes i modellbyggaren för regionmodellen Från modellbyggarens resultat fanns det i likhet med landmodellen en del modeller med AICc-värde relativt nära AICc min. 4 modeller låg inom AICc min AICc i < 2 (se figur 4.3) och för att hitta den modell som faktiskt gav variabler med en signifikansnivå på högst 5 % kördes regressioner på först modellen med lägst AICc och sedan modellen med näst lägst AICc o.s.v. tills alla variabler i modellen låg inom det 95 % konfidensintervallet. Modell 2 i figur 4.3 gav variabler som alla låg inom signifikansnivån 5 % och denna valdes alltså till den slutliga modellen. Resultatet för de estimerade koefficienterna från regressionen visas nedan i tabell 4.5. En graf över de standardiserade residualernas fördelning ritades upp för att kunna kontrollera att feltermerna var normalfördelade, se figur 4.4. R 2 och Radj 2 för regressionen av regionmodellen kan ses i tabell

29 4.2. RESULTAT FÖR REGIONMODELLEN Figur 4.3. Bild som visar hur AICc-värdet (Information Criterion) förändrades beroende på inkluderade variabler för regionmodellen. En bock betyder att variabeln inkluderats i modellen. Koefficienter Modell ˆβ Standard- t-värde Signifikansavvikelse nivå Konstant 31,058 12,665 2,452 0,014 Ålder 26,916 0,855 31,478 0,000 Alkoholhalt 9,378 0,847 11,071 0,000 Selection 93,120 11,144 8,356 0,000 Campbeltown 119,950 26,123 4,592 0,000 Islay 34,120 12,439 2,743 0,006 Lowlands 55,689 21,773 2,558 0,011 Tabell 4.5. Koefficienter från regression av regionmodellen. Resultat med 3 decimaler. R 2 R 2 adj 0,689 0,687 Tabell 4.6. R 2 och R 2 adj för regionmodellen. 23

30 KAPITEL 4. RESULTAT Figur 4.4. Standardiserade residualernas (varje residual dividerad med standardavvikelsen) fördelning för regionmodellen. Svarta linjen är en normalfördelning. 24

31 4.3. RESULTAT FÖR VARUMÄRKEMODELLEN 4.3 Resultat för varumärkemodellen Antal observationer i datafilen för denna modell var 313 stycken. Denna datafil hade manipulerats för att endast innehåll maltwhisky från skotska regioner. För varumärkemodellen kördes modellbyggaren med variablerna i tabell 4.7. Ålder och Ålder 2 angavs i år, alkoholhalt angavs i antal procentenheter över 40 % (40 % är lägsta alkoholhalten för maltwhisky i Systembolaget ABs sortiment) och varje varumärke hade en varsin dummyvariabel. Alla märken inkluderades inte utan de 19 märken med flest observationer valdes ut ur sortimentsfilen. Denna modell innefattade även dummyvariabeln Selection som nämndes i metodkapitlet. Variabler Ålder Ålder 2 Alkoholhalt BenRiach Bladnoch Bowmore Bruichladdich Bunnahabhain Caol Ila Clynelish Glen Grant Glen Keith Glenlivet Glenrothes Highland Park Laphroaig Linkwood Longmorn Macallan Mackmyra Mortlach Tamdhu Tabell 4.7. Ursprungliga variabler som användes i modellbyggaren för varumärkemodellen Precis som med resultatet från modellbyggaren för föregående modeller finns en del modeller med AICc-värde relativt nära AICc min. 5 modeller låg inom AICc min AICc i < 2 (se figur 4.5) och för att hitta den modell som faktiskt gav variabler med en signifikansnivå på högst 5 % kördes regressioner på först modellen med lägst AICc och sedan modellen med näst lägst AICc o.s.v. tills alla variabler i modellen låg inom det 95 % konfidensintervallet. Det var först i modell 7 i figur 4.5 som alla variabler låg inom signifikansnivån 5 % och denna valdes alltså till den slutliga modellen. Resultatet för de estimerade koefficienterna från regressionen visas nedan i tabell 4.8. En graf över de standardiserade residualernas fördelning ritades upp för att kunna kontrollera att feltermerna var normalfördelade, se figur 4.6. R 2 och Radj 2 för regressionen av varumärkemodellen kan ses i tabell

32 KAPITEL 4. RESULTAT Figur 4.5. Bild som visar hur AICc-värdet (Information Criterion) förändrades beroende på inkluderade variabler för varumärkemodellen. En bock betyder att variabeln inkluderats i modellen. Koefficienter Modell ˆβ Standard- t-värde Signifikansavvikelse nivå Konstant -80,595 25,484-3,163 0,002 Ålder 26,907 1,360 19,788 0,000 Alkoholhalt 10,472 1,359 7,704 0,000 Selection 151,113 19,007 7,950 0,000 BenRiach -65,278 26,395-2,473 0,014 Bladnoch 72,338 32,134 2,251 0,025 Glenlivet -119,447 34,467-3,466 0,001 Macallan 133,047 30,950 4,299 0,000 Mackmyra 453,358 39,512 11,474 0,000 Tabell 4.8. Koefficienter från regression av märkemodellen. Resultat med 3 decimaler. R 2 R 2 adj 0,744 0,737 Tabell 4.9. R 2 och R 2 adj för märkemodellen. 26

33 4.3. RESULTAT FÖR VARUMÄRKEMODELLEN Figur 4.6. Standardiserade residualernas (varje residual dividerad med standardavvikelsen) fördelning för varumärkemodellen. Svarta linjen är en normalfördelning. 27

34

35 Kapitel 5 Diskussion Anledningen att regressionsanalysen delades upp i tre modeller var på grund av risken för multikollinearitet. En maltwhisky av märket Macallan är ju alltid från Speyside i Skottland precis som Mackmyra alltid är från Sverige. 5.1 Landmodellen Landmodellen ansågs från början vara svår att förutspå och det rådde viss osäkerhet kring om modellen skulle ge ett användbart resultat. I slutändan togs en modell fram med låg AICc, höga R 2 och Radj 2 -värden samt mycket god signifikansnivå, som kommer diskuteras närmare här. Från tabell 4.2 ses att alla koefficienter ligger inom 5 % signifikansnivå och att enbart två koefficienter (Sverige och Ålder 2 ) ligger utanför 1 %. Detta tillsammans med att figur 4.2 indikerar normalfördelade residualer gör att modellen anses vara användbar för vidare analys De inkluderade variablerna Alla variabler som slutligen inkluderades i landmodellen syns i tabell 4.2 och diskuteras nedan. Ålder: Att just ålder skulle komma att inkluderas i modellen var föga förvånande. Detta är en av de främsta marknadsföringsfaktorererna för maltwhiskys, det syns väldigt ofta tydligt på flaskorna vilken ålder maltwhiskyn har. Varje år extra whiskyn legat på fat ökar alltså priset, allt annat lika, vilket är rimligt och i linje med vad som förutspåddes. Ålder 2 : Inkluderades för att undersöka om det fanns ett kvadratiskt beteende för hur åldern påverkade priset jämfört med en linjär åldersterm då en del observationer indikerar att priset på väldigt gamla whiskys (t.ex. över 35 år) tenderar att vara extra högt. Denna variabel blev till synes signifikant på en 2 % nivå men koefficien- 29

36 KAPITEL 5. DISKUSSION ten är väldigt liten. Men när åldern ökar kommer den influera priset mer och mer. För exempelvis en 20-årig whisky blir åldern i kvadrat 400 vilket multiplicerat med ålder 2 -koefficienten 0,242 blir 96 kronor. Även detta är i linje med att maltwhisky med väldigt hög ålder ofta har ett högt pris. Alkoholhalt: Att ökande alkoholhalt ökar priset, allt annat lika, var till viss del förväntat. Så kallad cask strength maltwhisky är till exempel mycket starkare än klassisk maltwhisky, men också lite dyrare. Inkluderade länderna Australien, Indien, Irland, Skottland, Sverige, Tjeckien: Att just dessa länder blev signifikanta är, förutom i fallet Skottland, inte lätt att förklara. Dock har dessa länder förhållandevis många maltwhiskys i observerade data. Denna modell antyder dock kraftigt att ursprunget för en maltwhisky spelar stor roll för priset. Tittar man på ländernas koefficienter är det mest förvånande att Skottlands koefficient fick så stor negativ påverkan, allt annat lika. En förklaring till kan dock vara att Skottland har klart flest maltwhiskys med i datamängden och därför också flest billiga sådana. Tjeckien har den största negativa koefficienten vilket beror på ett mindre antal observerade data från detta land som nästan uteslutande befinner sig i den lägre prisregionen De eliminerade variablerna Av variablerna som testades, se tabell 4.1, var det 7 som inte inkluderades i modellen: England, Japan, Nederländerna, Frankrike, Kanada, Taiwan och USA. Att dessa länder inte fick var signifikanta nog för modellen kan tänkas bero på att det fanns för få maltwhiskys med i datamängden från dessa länder. Utan tillräckligt med data kommer signifikansen för dessa variabler inte att bli tillräckligt hög för att kunna ge någon förklaring till priset och därför borde de heller inte inkluderas i modellen. Dock är de alla med och påverkar den konstanta koefficienten, β 0, och således kan inkluderade maltwhiskys jämföras med detta i åtanke. 5.2 Regionmodellen Mer än 90 % av maltwhiskyn i Systembolaget ABs sortimentsfil [2] är från Skottland. Whiskyförsäljningen utgör också en stor del av Skottlands export [9]. Att göra en specifik modell för hur priset varierar för de olika regionerna i Skottland var alltså helt i linje med detta examensarbetets syfte. I sortimentsfilen hade Systembolaget redan specificerat regioner [10], men dessa modifierades något för att få större grupper av maltwhisky och färre regioner i stället för enstaka whisky i många regioner. D.v.s. Western, Eastern och Northern Highlands lades i en gemensam region Highlands. Islands (öarna) tillhör egentligen Highlands, men p.g.a. de olika öarnas säregna smaker har de behandlats som en egen region. I Speyside, som tidigare tillhörde Highlands, finns merparten av alla maltwhiskydestillerier och den största 30

37 5.2. REGIONMODELLEN delen av maltwhiskyn i sortimentsfilen kommer följdaktligen därifrån. Regionerna Campbeltown och Lowlands betraktas som egna regioner, av samma anledning som Islands, även om det bara finns tre destillerier i vardera region. Den sista regionen Islay, som också är en ö men betraktas som en egen region, är hemvisten till den rökiga whiskyn. Regionernas geografiska belägenhet kan ses i figur 5.1 på nästa sida. Denna modell har vissa defekter. Som synes i tabell 4.5 finns inte de största regionerna med i modellen och en anledning till detta är troligtvis den stora spridningen i priser på whisky därifrån, även inom samma regioner. Detta får stöd av att två av de tre regioner som är signifikanta för modellen är de regioner där det endast finns tre destillerier (Campbeltown och Lowlands). På grund av det låga antalet destillerier bör spridningen i priset vara relativt liten och standardavvikelsen blir då också liten vilket ger en signifikant variabel. Även om modellen inte ger en helhetlig modell av hur maltwhiskypriset varierar i Skottland kan modellen beskriva hur whisky från de mindre regionerna skiljer sig från priset på whisky i de större regionerna, som är representerade i konstanttermen. Denna modell hade en relativt hög beskrivandegrad med R 2 och Radj 2 på 0,689 respektive 0,687. När modellbyggaren kördes för regionmodellen (se resultatet i kapitel 4.2) var det framförallt två oberoende variabler som var starkt korrelerade med priset, nämligen ålder och alkoholhalt. Båda dessa variabler hade hög signifikans för modellen De inkluderade variablerna Ålder: Se kapitel ovan. Alkoholhalt: Se kapitel ovan. Selection: Maltwhisky från Skottland är något som ofta köps på fat av oberoende buteljerare för att få en smak som buteljeraren tycker maltwhiskyn bör ha. Whiskyn från destillerierna är ju massproducerad medan dessa utvalda fat är en limiterad utgåva. Att denna koefficient skulle vara positiv och relativt stor var något som var förväntat och som även visade sig stämma (se tabell 4.5). En selectionwhisky ökar priset på en whisky med 93,12 SEK. Campbeltown: Som nämndes i inledningen till detta kapitel är Campbeltown en av två regioner i Skottland där det endast finns tre destillerier. Prissättningen på whisky från de tre destillerierna i Campbeltown ligger alltså väldigt nära varandra och ger en hög signifikans hos variabeln. Hålls de övriga variablerna konstant ökar en whisky från Campbeltown priset med 119,95 SEK. Islay: Prisets spridning är för whisky från Islay relativt stor men detta hopp i pris är en följd av att en stor del av whisky från Islay är så kallad selectionwhisky. De få whisky från Islay som inte är en selection ligger väldigt lika i prissättningen och 31

38 KAPITEL 5. DISKUSSION Figur 5.1. Karta över de olika whiskyregionerna i Skottland [11]. ger därför relativt låg standardavvikelse. Hålls de övriga variablerna konstant ökar en whisky från Islay priset med 34,12 SEK. Lowlands: I likhet med Campbeltown blir denna variabel signifikant på grund av den låga spridningen i priset hos whisky från denna region med få destillerier. Hålls de övriga variablerna konstant ökar en whisky från Lowlands priset med 55,69 SEK. 32

39 5.3. VARUMÄRKEMODELLEN De eliminerade variablerna De eliminerade variablerna var Highlands, Islands och Speyside. De större regionerna eliminerades alltså i modellen och anledningen till detta torde vara att det stora antalet destillerier i dessa regioner har väldigt olika prissättning. En stor variation i pris blir alltså svår att anpassa i en linjär regression. I denna modell eliminerades också Ålder 2, även fast den var med i modellen med lägst AICc. Variabeln var dock endast signifikant på 10 %-nivå och förkastades alltså till fördel för modellen med näst lägst AICc där alla variabel var på 5 %- nivå. Vid regression med denna variabel kunde en slutsats dras om att prisökningen faktiskt till viss del var kvadratisk men eftersom signifikansnivån 5 % satts som gräns i detta examensarbete uteslöts denna påverkan. 5.3 Varumärkemodellen Exakt hur och varför ett varumärke påverkar priset är en fråga för ekonomer och marknadsanalytiker. I detta arbete behandlas frågan rent statistiskt för att påvisa att det faktiskt finns en påverkan. Utgångspunkten för analysen var ändå att en maltwhisky från ett mer känt märke skulle kosta mer än en maltwhisky från ett mindre känt sådant. Till denna modell valdes 19 whiskys ut ur sortimentsfilen. Dessa 19 whiskys var de med flest antal observationer. Samtliga oberoende variabler i tabell 4.7 kördes i modellbyggaren och denna gav flertalet modeller med lågt AICc. De två modeller med lägst AICc innehöll tyvärr insignifikanta variabler vilket gjorde att modell 3 i figur 4.5 valdes för att ha samtliga variabler på 5 % signifikansnivå. Det visade sig denna modell gav ett relativt högt R 2 och Radj 2 till författarnas glädje, och var därför en bra utgångspunkt för vidare analys. Målet med denna modell var att visa en signifikant skillnad mellan olika märken De inkluderade variablerna Ålder: Se kapitel ovan. Alkoholhalt: Se kapitel ovan. Selection: Selectionvariabeln ger en stor prisökning för en whisky, vilket var förväntat i och med att dessa är limiterade utgåvor. Ökningen i SEK för en selectionwhisky i denna modell är alltså 151,11 SEK. De inkluderade märkena BenRiach, Bladnoch, Glenlivet, Macallan och Mackmyra: 5 av de 19 märkena blir signifikanta nog att inkluderas i modellen. Tabell 4.8 visar att det var en tydlig märkespåverkan från en del märken. Mackmyra får en väldigt stor positiv påverkan vilket är anmärkningsvärt. Detta är en whisky som skiljer sig mycket från de övriga i sortimentsfilen på det sättet att den lagrats väldigt kort 33

40 KAPITEL 5. DISKUSSION tid på fat i förhållande till de övriga. Slutsatsen som kan dras från denna analys är att märket Mackmyra sätter största delen av priset eftersom ålderskoefficienten inte bidrar lika mycket till priset som för de övriga De eliminierade variablerna De eliminerade variablerna var 14 märken och Ålder 2. Att Ålder 2 inte är signifikant nog visar att ålderns påverkan på priset faktiskt verkar vara linjär. De märken som inte inkluderades i modellen var sådana som endera inte gav någon större skillnad i priset utöver påverkan från ålder och alkoholhalt. Eller så var spridningen i priset så stor att det inte gick att säga att det var varumärket som påverkade. 5.4 Jämförelse av de tre modellerna En jämförelse av modellerna ger en tydlig bild av att ålderns och alkoholhaltens påverkan är något som är relativt lika i samtliga modeller vilket är till belåtenhet. De små fluktuationer som finns hos dessa två variabler i de olika modellerna är så pass små att detta inte handlar om någon signifikant skillnad i ålderns och alkoholhaltens förmåga att förklara priset i de olika modellerna. Även om de övriga variablerna i modellerna inte är direkt jämförbara kan det konstateras i landmodellen att skotska whiskys har ett lägre pris vilket stärks av att koefficienterna i regionsmodellen är mycket mindre än i de två övriga modellerna. Om en jämförelse görs mellan två likvärdiga whiskys från landmodellen respektive märkemodellen kan det konstateras att dessa ger väldigt likartade resultat. Om en 3-årig svensk whisky med 40 % alkoholhalt från landmodellen jämförs med en 3-årig Mackmyra med 40 % alkoholhalt fås ett tydligt resultat, se nedan. Koefficienterna är tagna från tabell 4.2 och tabell 4.8 Svensk whisky = 281, , , , , 421 = 447, 618 SEK Mackmyra = 80, , , , 358 = 463, 956 SEK Skillnaden är alltså bara drygt 16 SEK. (5.1) (5.2) 5.5 Felkällor En del felkällor hos koefficienternas utseende har tagits upp i diskussionen ovan, i detta kapitel diskuteras ytterligare felkällor i datamängd och metoder. 34

41 5.5. FELKÄLLOR Först är det viktigt att påpeka att datafilen från Systembolaget AB [2] kommer från en utomstående part. Även om det antas att filen och dess data är korrekt är det inget som kan garanteras. Det är dock väldigt många datapunkter så om det skulle förekommea små fel i datafilen kommer dessa inte ha någon speciellt stor påverkan på modellens korrekthet. Det skall också påpekas att data har genomgåtts grundligt och det har då inte hittats några större fel i filen. Även om datamängden i denna undersökning var extensiv måste det också nämnas att alla maltwhiskys i datafilen är utvalda av Systembolaget för deras sortiment. Det skulle vara önskbart att ha ytterligare datapunkter för analysen, men den använda datamängden anses vara tillräckligt stor och varierad för att ge en god analys. Antagandet som gjorts att ålderns påverkan på priset är linjär eller eventuellt kvadratiskt är ett antagande som gjorts utifrån vad som ansågs passa bäst efter studerande av datans beteende. Det skall dock påpekas att detta kunde lösts på annat sätt, till exempel genom att gruppera åldrarna i intervall. Den funktionella form som valdes i slutet anses ändå ha gett ett bra resultat vilket stärks av residualplottarnas beteende, se figurerna 5.2, 5.3 och 5.4 på nästa sida. Trots att den datamanipulation som gjorts har genomförts med största noggrannhet kan det inte garanteras att små fel inte uppstått. Dessa är dock så få att påverkan på slutresultatet inte borde vara nämnbart stor. Ett exempel på sådan datamanipulation är att vissa maltwhiskys saknade ålder i Systembolagets fil. I dessa fall har extensiv internetsökning i whiskydatabaser [12] gjorts för att kunna bestämma åldern. Här måste också utomstående källor värderas för validitet och vissa fel kan förekomma hos dessa. Återigen är mängden data som påverkas liten jämfört med hela datamängden och påverkan borde således inte bli så stor. 35

42 KAPITEL 5. DISKUSSION Figur 5.2. Landmodellens estimerade pris plottade mot residualerna. Notera skalan på axlarna.. Figur 5.3. Regionmodellens estimerade pris plottade mot residualerna. Notera skalan på axlarna.. 36

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Analys av bostadsrättspriset i Stockholms innerstad

Analys av bostadsrättspriset i Stockholms innerstad Analys av bostadsrättspriset i Stockholms innerstad En multipel linjär regression Kandidatexamensarbete i Teknisk Fysik Anda Zhang andaz@kth.se Handledare Boualem Djehiche Avdelningen för Matematisk Statistik

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta

Läs mer

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Kungliga Tekniska Högskolan Kandidatexamensarbete i Teknisk Fysik Institutionen för Matematisk Statistik Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm Författare:

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Föreläsning 4. Kap 5,1-5,3

Föreläsning 4. Kap 5,1-5,3 Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift Regressionsanalys, baserat på Sveriges kommuner

Läs mer

InStat Exempel 4 Korrelation och Regression

InStat Exempel 4 Korrelation och Regression InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

NÄR SKA MAN SÄLJA SIN BOSTAD?

NÄR SKA MAN SÄLJA SIN BOSTAD? NÄR SKA MAN SÄLJA SIN BOSTAD? En multipel regressionsanalys av bostadsrätter i Stockholm Oscar Jonsson Moa Englund Stockholm 2015 Matematik Institutionen Kungliga Tekniska Högskolan Sammanfattning Projektet

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys) Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,

Läs mer

Text: Arne Hellberg. Foto: Arne Hellberg

Text: Arne Hellberg. Foto: Arne Hellberg Avesta Whiskysällskaps provning nr 7 2004-11-27 Sammanfattning Text: Arne Hellberg. Foto: Arne Hellberg Årets femte och sista provning hade temat gammal whisky. Till denna provning kom 39 medlemmar samt

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Verksamhetsutvärdering av Mattecentrum

Verksamhetsutvärdering av Mattecentrum Verksamhetsutvärdering av Mattecentrum April 2016 www.numbersanalytics.se info@numbersanalytics.se Presskontakt: Oskar Eriksson, 0732 096657 oskar@numbersanalytics.se INNEHÅLLSFÖRTECKNING Inledning...

Läs mer

Whiskyprovning 2010-10

Whiskyprovning 2010-10 Whiskyprovning 2010-10 10-29 Denna gång provar vi en lite annorlunda variant, de sorter vi provat (förutom en joker ) är alla ingridienser i den välbekanta blended whiskyn Famous Grouse! Macallan 15y Higland

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

Laboration 2 multipel linjär regression

Laboration 2 multipel linjär regression Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera

Läs mer

1 Förberedelseuppgifter

1 Förberedelseuppgifter LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 2 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02 Syfte: Syftet med dagens laborationen är att du skall: bli

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se

Läs mer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng. 1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Laboration 4 R-versionen

Laboration 4 R-versionen Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 VT13, lp3 Laboration 4 R-versionen Regressionsanalys 2013-03-07 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14

Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Regressionsanalys av huspriser i Vaxholm

Regressionsanalys av huspriser i Vaxholm Regressionsanalys av huspriser i Vaxholm Rasmus Parkinson Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:19 Matematisk statistik Juni 2015 www.math.su.se

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas

Läs mer

Analys av betygsstatistik från KTH

Analys av betygsstatistik från KTH Martin Möllberg mollberg@kth.se Alexei Zaitsev alexeiz@kth.se SA104X Examensarbete i teknisk fysik, grundnivå Avdelningen för matematisk statistik 17 maj 2011 Författarnas tack Vi vill särskilt tacka två

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 22 februari STOCKHOLMS UIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 februari 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor Beskrivande statistik Tony Pansell, Leg optiker Docent, Universitetslektor Beskrivande statistik Grunden för all analys är ordning och reda! Beskrivande statistik hjälper oss att överskådligt sammanfatta

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

TVM-Matematik Adam Jonsson

TVM-Matematik Adam Jonsson TVM-Matematik Adam Jonsson 014-1-09 LABORATION 3 I MATEMATISK STATISTIK, S0001M REGRESSIONSANALYS I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistikprogrammet

Läs mer

Regressionsanalys av NHL-statistik

Regressionsanalys av NHL-statistik Regressionsanalys av NHL-statistik Av Gustav Hedén gheden@kth.se Examensarbete inom teknisk fysik, grundnivå SA104x KTH Matematisk statistik Handledare Fredrik Armerin 1 Innehållsförteckning Sammanfattning:...

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

Obligatorisk uppgift, del 1

Obligatorisk uppgift, del 1 Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110204)

EXAMINATION KVANTITATIV METOD vt-11 (110204) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

Multipel regression och Partiella korrelationer

Multipel regression och Partiella korrelationer Multipel regression och Partiella korrelationer Joakim Westerlund Kom ihåg bakomliggande variabelproblemet: Temperatur Jackförsäljning Oljeförbrukning Bakomliggande variabelproblemet kan, som tidigare

Läs mer

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER När vi mäter en effekt i data så vill vi ofta se om denna skiljer sig mellan olika delgrupper. Vi kanske testar effekten av ett

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006 Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner

Läs mer

Laboration 4: Lineär regression

Laboration 4: Lineär regression LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08 Laboration 4: Lineär regression 1 Syfte Denna laboration handlar om regressionsanalys och

Läs mer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9. Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 4I2B KINAF4, KINAR4, KINLO4, KMASK4 7,5 högskolepoäng Tentamensdatum: 28 oktober 206 Tid:

Läs mer

Laboration 2: Styrkefunktion samt Regression

Laboration 2: Styrkefunktion samt Regression Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I MATEMATISK STATISTIK UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för Teknologer, 5 poäng MSTA33 Ingrid Svensson TENTAMEN 2004-01-13 TENTAMEN I MATEMATISK STATISTIK Statistik för Teknologer, 5 poäng Tillåtna

Läs mer

THE Churchill Arms WELCOME. Måndag Torsdag från 16.00 Fredag från 15.00 Lördag Söndag från 14.00

THE Churchill Arms WELCOME. Måndag Torsdag från 16.00 Fredag från 15.00 Lördag Söndag från 14.00 info@ CAMPBELTOWN Glen Scotia 14 Y, Cask Strength, Casks 99, 103, 104, G&M, D-04/02/92, B-12/09/06 Refill Sherry Hogshead 59,9% 75 Glen Scotia 17 Y, MacPhail's Collection G&M, D-92, B-10 43,0% 62 Glen

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

import totalt, mkr index 85,23 100,00 107,36 103,76

import totalt, mkr index 85,23 100,00 107,36 103,76 1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 29 mars 2008 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström April 8, 2011 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Exempeltenta 5 Tillåtna hjälpmedel: Miniräknare (Formelsamling

Läs mer

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset. Statistiska institutionen Nicklas Pettersson Skriftlig tentamen i Finansiell Statistik Grundnivå 7.5hp, HT2013 2014-02-07 Skrivtid: 13.00-18.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys

Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys Rickard Gunnvald F-09 Patrik Gunnvald F-09 ricgun@kth.se gunnvald@kth.se Kurs SA104X Examensarbete inom teknisk

Läs mer