1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Relevanta dokument
Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Facit till Extra övningsuppgifter

TENTAMEN I STATISTIK B,

Regressions- och Tidsserieanalys - F4

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Regressions- och Tidsserieanalys - F8

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Regressions- och Tidsserieanalys - F3

Vad Betyder måtten MAPE, MAD och MSD?

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 4. Kap 5,1-5,3

Regressions- och Tidsserieanalys - F1

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F5

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F3

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Skrivning i ekonometri lördagen den 29 mars 2008

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 9. Bertil Wegmann. December 1, IDA, Linköpings universitet

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen Tillämpad statistik A5 (15hp)

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Skrivning i ekonometri lördagen den 15 januari 2005

Datorövning 5 Exponentiella modeller och elasticitetssamband

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen Tillämpad statistik A5 (15hp)

Metod och teori. Statistik för naturvetare Umeå universitet

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Tentamen Tillämpad statistik A5 (15hp)

TENTAMEN I MATEMATISK STATISTIK

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Räkneövning 3 Variansanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning G60 Statistiska metoder

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

F11. Kvantitativa prognostekniker

Exempel 1 på multipelregression

Examinationsuppgifter del 2

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tidsserier, forts från F16 F17. Tidsserier Säsongrensning

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Skrivning i ekonometri lördagen den 25 augusti 2007

LABORATION 3 - Regressionsanalys

Tentamen i matematisk statistik

Datorövning 1 Enkel linjär regressionsanalys

Kvadratisk regression, forts.

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

F7 Polynomregression och Dummyvariabler

LABORATION 3 - Regressionsanalys

HSTA72 REGRESSIONS- OCH TIDSSERIEANALYS, 5p Ekonomprogrammet, t2, Vt 06 Tentamen

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

tentaplugg.nu av studenter för studenter

Laboration 2 multipel linjär regression

Prognoser. ekonomisk-teoretisk synvinkel. Sunt förnuft i kombination med effektiv matematik ger i regel de bästa prognoserna.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Räkneövning 4. Om uppgifterna. 1 Uppgift 1. Statistiska institutionen Uppsala universitet. 14 december 2016

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i matematisk statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Exempel 1 på multipelregression

Tentamen i Matematisk statistik Kurskod S0001M

Multipel Regressionsmodellen

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Transkript:

LINKÖPINGS UNIVERSITET Institutionen för datavetenskap Statistik, ANd 732G71 STATISTIK B, 8hp Civilekonomprogrammet, t3, Ht 09 Extra övningsuppgifter Extra övningsuppgifter 1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet: E(y) = α x β För det faktiska värdena på y tillkommer slumpmässiga avvikelser, vilket förklarar att sambandet inte kan beskrivas exakt. Man har samlat in följande data på y och x: y 10.0 12.5 7.0 14.5 22.5 8.5 13.0 10.0 9.0 20.0 x 3.0 3.5 2.5 4.0 6.0 2.0 3.5 3.5 2.0 6.5 a) Ställ upp en lämplig modell där y förklaras av x. b) Skatta parametrarna α och β m h a regressionsanalys på lämpligt sätt. c) Testa på 1% nivå om parametern β är noll. d) Beräkna på lämpligt sätt ett 95% prognosintervall för y då x = 5.0. Kan man vara övertygad om att säkerheten blir 95%? Fundera! 2. Antag att man har registrerat försäljningen av en viss produkt under 8 år och då noterat dels hur många enheter som sålts, vilket pris produkten haft, samt värdet på konsumentprisindex under dessa år: År 1 2 3 4 5 6 7 8 Antal sålda enheter 542 549 472 595 470 440 432 483 Pris 45 45 47 50 51 55 55 56 KPI 355 357 365 368 375 380 384 392 a) Ställ upp en lämpligt modell för hur efterfrågad volym kan antas bero av priset. Tänk på att prisvariabeln normalt skall anges som relativpris. b) Använd regressionsanalys för att skatta produktens priselasticitet. c) Testa på 5% nivå om produkten är normalt priskänslig, dvs har priselasticiteten 1. d) Använd din skattade modell för att ge en prognos av förändringen i efterfrågan då relativpriset ökar med c:a 2%. 3. Man vill skatta parametrarna γ och θ i modellen y = γ x θ δ, där y, och x är två variabler, som anses ha detta samband och δ är en slumpvariabel sådan att log 10 (δ) är N(0, σ) fördelad. I ett datamaterial om 12 observationer på x och y har gett följande sammanställning:

12 x 1 x 2... x 12 =21322.1 y 1 y 2... y 12 =395583 12 i=1 (log 10(x i )) 2 =1.77402 12 i=1 (log 10(y i )) 2 =2.90207 i=1 (log 10(x i )) (log 10 (y i )=2.24964 a) Skatta parametrarna γ och θ på lämpligt sätt. b) Beräkna ett 95% konfidensintervall för parametern θ. c) Gör en prognos för y då x = 3.0 och beräkna ett 99% prognosintervall. Följande text och data skall användas i uppgifterna 4 och 5: Nedan redovisas data över såld årskvantitet (Volym) av en viss vara mellan 1980 och 1997, samt uppgifter om relativprisindex (RPI) för varan, totalinkomsteri kronor, befolkningstal, konsumentprisindex och uträknad disponibel realinkomst per capita (INK) i kronor. Värdena har avrundats för att få plats i utskriften. Volym log 10 (Volym) RPI log 10 (RPI) Inkomst Befolkn. KPI INK log 10 (INK) 340067 5.53 100.0 2.000 284172 8310476 100.0 34194.4 4.53 327608 5.52 94.6 1.976 310369 8320488 112.1 33275.4 4.52 386113 5.59 92.3 1.965 335610 8325260 121.7 33124.3 4.52 333817 5.52 89.8 1.953 367074 8329031 132.6 33236.5 4.52 408825 5.61 88.2 1.945 412659 8336599 143.2 34566.8 4.54 379316 5.58 87.0 1.940 455591 8350382 153.8 35474.2 4.55 369825 5.57 88.5 1.947 494915 8369829 160.3 36887.6 4.57 353666 5.55 90.0 1.954 522988 8397802 167.0 37291.5 4.57 388988 5.59 90.2 1.955 557361 8436488 176.7 37388.5 4.57 373017 5.57 89.8 1.953 603187 8492963 188.1 37757.6 4.58 358825 5.55 86.2 1.935 688857 8558835 207.8 38731.9 4.59 411217 5.61 83.6 1.922 796308 8617377 227.2 40672.2 4.61 384850 5.59 86.6 1.937 842313 8668067 232.4 41813.4 4.62 373763 5.57 87.7 1.943 868219 8718562 243.2 40946.9 4.61 380005 5.58 91.0 1.959 906706 8780748 248.5 41553.6 4.62 369507 5.57 94.1 1.973 921548 8826940 254.8 40974.0 4.61 345480 5.54 99.2 1.997 926123 8840999 256.0 40919.2 4.61 358805 5.55 104.7 2.020 930240 8846063 257.3 40870.1 4.61

Nedanstående utskrift är hämtad från två Minitab-analyser av data: Regression Analysis: Volym versus RPI, INK The regression equation is Volym = 510141-2356 RPI + 1.96 INK Predictor Coef SE Coef T P Constant 510141 99696 5.12 0.000 RPI -2355.8 884.8-2.66 0.018 INK 1.961 1.511 1.30 0.214 S = 19804 R-Sq = 37.2% R-Sq(adj) = 28.8% Analysis of Variance Source DF SS MS F P Regression 2 3480362799 1740181399 4.44 0.031 Residual Error 15 5882737507 392182500 Total 17 9363100306 Source DF Seq SS RPI 1 2820539024 INK 1 659823775 Regression Analysis: log(volym) versus log(rpi), log(ink) The regression equation is log(volym) = 5.80-0.600 log(rpi) + 0.206 log(ink) Predictor Coef SE Coef T P Constant 5.7990 0.8361 6.94 0.000 log(rpi) -0.5996 0.2237-2.68 0.017 log(ink) 0.2059 0.1523 1.35 0.196 S = 0.02320 R-Sq = 38.2% R-Sq(adj) = 30.0% Analysis of Variance Source DF SS MS F P Regression 2 0.0049931 0.0024966 4.64 0.027 Residual Error 15 0.0080735 0.0005382 Total 17 0.0130667 Source DF Seq SS log(rpi) 1 0.0040085 log(ink) 1 0.0009846

4. a) Vilka modeller ligger till grund för de två analyser som har gjorts? b) Skatta priselasticiteten för varan genom att utnyttja en av analyserna (endast en av dem fungerar). c) Är varan inkomstelastisk? Besvara frågan genom att göra ett lämpligt test på 5% nivå med hjälp av en av analyserna (endast en av dem fungerar). 5. Ytterligare två Minitab-analyser är följande: Regression Analysis: log(volym) versus log(rpi) The regression equation is log(volym) = 6.76-0.610 log(rpi) Predictor Coef SE Coef T P Constant 6.7621 0.4494 15.05 0.000 log(rpi) -0.6102 0.2293-2.66 0.017 S = 0.02379 R-Sq = 30.7% R-Sq(adj) = 26.3% Analysis of Variance Source DF SS MS F P Regression 1 0.0040085 0.0040085 7.08 0.017 Residual Error 16 0.0090582 0.0005661 Total 17 0.0130667 Regression Analysis: log(volym) versus log(ink) The regression equation is log(volym) = 4.56 + 0.220 log(ink) Predictor Coef SE Coef T P Constant 4.5585 0.8198 5.56 0.000 log(ink) 0.2203 0.1792 1.23 0.237 S = 0.02732 R-Sq = 8.6% R-Sq(adj) = 2.9% Analysis of Variance Source DF SS MS F P Regression 1 0.0011278 0.0011278 1.51 0.237 Residual Error 16 0.0119389 0.0007462 Total 17 0.0130667

a) Antag att man vill försöka bygga en modell för efterfrågad volym med pris och inkomst (i lämpliga former) som förklarande variabler. Vad blir resultatet av en stegvist byggd modell? Använd 5% signifikansnivå i de test du behöver göra. b) Kan man säga att denna vara är priskänslig? Utred på lämplig sätt med hjälp av de gjorda analyserna och genomför ev. test på 5% nivå. c) Använd en av analyserna för att skissa en kurva för efterfrågad vara mot pris, när disponibel realinkomst per capita är 40000 kronor. 6. Följande tidsserie består av halvårsdata ( i kkr) över försäljningen av cyklar i en cykelaffär: 262.9, 448.3, 315.0, 487.6, 339.4, 468.1, 374.4, 508.3, 375.8, 585.4, 438.5, 663.1 Antag additiv modell och säsongrensa serien. Du har hjälp av nedanstående Minitab-utskrift: Time Series Decomposition Data Frsljn Length 12.0000 NMissing 0 Trend Line Equation Yt = 301.155 + 21.1916*t Seasonal Indices Period Index 1-78.0750 2 78.0750

7. Försäljningen av gasolgrillar antas ha haft en så kraftig uppgång under perioden 91 94 att man kan tala om en exponentiellt ökande trend. Det finns dock en kraftig säsongsvariation över året. Under tre år har säsongkomponenterna skattats till 37% över trend-nivån under andra och tredje kvartalet, och c:a 37% under trend-nivån under första och fjärde kvartalet. Originaldata förutsätts vara fria från konjunkturvariation och presenteras nedan. Skatta tillväxtfaktorn i försäljningsutvecklingen på lämpligt sätt. Tidsper. Försäljn.(kkr) apr 91 sep 91 9759.7 okt 91 mar 92 7861.5 apr 92 sep 92 12452.4 okt 92 mar 93 7056.9 apr 93 sep 93 17874.2 okt 93 mar 94 12421.6 8. Nedanstående siffror beskriver kvartalsvis antal uthyrda timmar vid ett solarium. Plotta data i tidsordning och gör en bedömning av vilken modell, som är tillämpbar. Använd sedan någon av de följande Minitab-analyserna för att skatta och tolka säsongkomponenterna enligt den valda modellen. År Kvartal Antal uthyrda soltr 1990 1 2033 2 1680 3 938 4 1522 1991 1 2012 2 1651 3 943 4 1519 1992 1 1989 2 1663 3 944 4 1480 1993 1 2031 2 1569 3 919 4 1456

Data Timmar Length 16.0000 NMissing 0 Trend Line Equation Yt = 1667.5-17.1397*t Seasonal Indices Period Index 1 1.31331 2 1.07977 3 0.617005 4 0.989909 Accuracy of Model MAPE: 3.53 MAD: 53.63 MSD: 4337.52 Data Timmar Length 16.0000 NMissing 0 Trend Line Equation Yt = 1667.5-17.1397*t Seasonal Indices Period Index 1 480.063 2 118.812 3-585.938 4-12.9375 Accuracy of Model MAPE: 3.90 MAD: 53.85 MSD: 3969.89

9. Nedan visas resultatet av en klassisk komponentuppdelning med Minitab av data för privat konsumtion av livsmedel, drycker och tobak i löpande priser från 1980, kvartal 1 till 1998, kvartal 4. Data har hämtats från SCB s hemsida.

Time Series Decomposition Data Livsmedel... Length 76,0000 NMissing 0 Trend Line Equation Yt = 17663,6 + 357,157*t Seasonal Indices Period Index 1 0,961977 2 1,03823 3 0,982822 4 1,01697 a) Vilken typ av klassisk modell verkar ha använts? Motivera ditt svar. b) Beräkna en prognos för konsumtionen första kvartalet 1999.

Nedan visas resultatet från en MINITAB-analys av data med Winter s metod. Winters multiplicative model Data Livsmedel... Length 76,0000 NMissing 0 Smoothing Constants Alpha (level): 0,2 Gamma (trend): 0,2 Delta (seasonal): 0,2 Accuracy Measures MAPE: 2 MAD: 613 MSD: 789489 Row Period FORE2 LOWE2 UPPE2 1 77 38505,3 37004,4 40006,2 c) Jämför de prognoser du beräknade i b)-uppgiften med de, som Winter s metod ger. Vilket metod verkar fungera bäst? Finns det någon rimlig orsak till detta? Motivera kortfattat.

10. Ett företag har specialiserat sig på glassförsäljning till hushåll via särskilda glassbilar. Företagets försäljningsvolym på indexform under några år redovisas i nedanstående tabell: År Kvartal Volymindex 1998 1 100 2 112 3 119 4 88 1999 1 93 2 117 3 125 4 99 2000 1 101 2 120 3 128 4 104 2001 1 101 2 119 3 130 4 106 En analys med Minitab gav följande resultat:

Time Series Decomposition Data C1 Length 16,0000 NMissing 0 Trend Line Equation Yt = 103,125 + 0,823529*t Seasonal Indices Period Index 1 0,893847 2 1,06817 3 1,14363 4 0,894351 Accuracy of Model MAPE: 2,23069 MAD: 2,28908 MSD: 9,49078

a) Vilken klassisk modell verkar ha använts i analysen? Motivera ditt svar och ställ upp modellen. b) Tolka de skattade säsongkomponenterna. c) Använd den skattade modellen för att göra prognoser av volymindex för kvartalen 1 och 2 år 2002. (Någon cyklisk komponent skall ej ingå.) Man har också gjort prognoser med Winters metod och fått följande resultat: Data C1 Length 16,0000 NMissing 0 Smoothing Constants Alpha (level): 0,2 Gamma (trend): 0,2 Delta (seasonal): 0,2 Accuracy Measures MAPE: 5,8447 MAD: 6,4535 MSD: 65,8912 Row Period Forecast Lower Upper 1 17 103,488 87,677 119,299 2 18 123,591 107,450 139,732

d) Jämför prognoserna med Winters metod med de du beräknade i b) uppgiften. Vilka tror/tycker du är bäst? Motivera ditt svar. 11. I en studie undersöks husprisers beroende av storleken på den kommun husen ligger i. För 10 slumpmässigt valda objekt av jämförbar typ erhålls följande resultat: Objekt (i) Pris (y i ) [i miljoner kronor] Kommunens befolkning (x 1i ) [i tusental invånare] 1 0.99 45 2 1.32 121 3 0.76 66 4 1.10 96 5 0.56 51 6 1.79 213 7 0.89 88 8 2.65 780 9 1.35 91 10 1.02 103 Följande har beräknats: x1i = 1654, y i y 2 i = 18.705, x 1i y i = 3143.09 = 12.43, x 2 1i = 713242, a) Illustrera grafiskt sambandet mellan huspris och befolkning. b) Formulera en (standardmässig) enkel linjär regressionsmodell för data. Ange tydligt vad varje komponent står för. c) Skatta parametrarna i den regressionsmodell du formulerat. d) Beräkna förklaringsgraden i den skattade regressionsmodellen. e) Testa på 5% nivå nollhypotesen att det inte finns något (linjärt) samband mellan huspris och befolkning. f) Oavsett resultatet i föregående uppgift, använd din skattade regressionsmodell för att beräkna ett 95% prognosintervall för priset på ett objekt av ovanstående typ då kommunens befolkning är 100000 personer.

12. I undersökningen i föregående uppgift har man också noterat hurvida kommunen har borgerlig majoritet i kommunfullmäktige. En varibel x 2 införs, som är = 1 vid borgerlig majoritet och 0 f.ö. Analyser görs i Minitab med följande resultat: Analys 1: Regression Analysis: y versus x1; x2 The regression equation is y = 0,853 + 0,00245 x1-0,037 x2 Predictor Coef SE Coef Constant 0,8531 0,1521 x1 0,0024460 0,0004505 x2-0,0366 0,1928 S = 0,2838 R-Sq = 82,7% R-Sq(adj) = 77,7% Analysis of Variance Source DF SS MS Regression 2 2,6911 1,3456 Residual Error 7 0,5637 0,0805 Total 9 3,2548 Analys 2: MTB > regr c3 3 c5 c6 c7 Regression Analysis: y versus x1; x2; x1*x2 The regression equation is y = 0,856 + 0,00243 x1-1,03 x2 + 0,0116 x1*x2 Predictor Coef SE Coef Constant 0,8564 0,1536 x1 0,0024306 0,0004551 x2-1,030 1,085 x1*x2 0,01163 0,01249 S = 0,2865 R-Sq = 84,9% R-Sq(adj) = 77,3% Analysis of Variance Source DF SS MS Regression 3 2,76225 0,92075 Residual Error 6 0,49256 0,08209 Total 9 3,25481

a) Tolka de skattade koefficienterna i Analys 2 på lämpligt sätt. Tips: Arbeta med variabeln x 2 så att den definierar två regressionslinjer. b) Har den politiska majoriteten någon inverkan i sig själv? Testa på 5% nivå. Använd Analys 2. c) Finns det något samspel mellan befolkning och politisk majoritet när det gäller huspriser? Testa på 5% nivå. d) Använd ett lämpligt test för att avgöra om införandet av x 2 och dess samspel med x 1 ger en bättre modell än modellen med enbart x 1. 13. Nedanstående data innhåller uppgifter om Begynnelselön (Salary), Utbildning (Educat), Erfarenhet (Exper), Anställningstid (Months) och Kön (Gender) hos 93 anställda vid Harris Bank i Chicago. Utbildning anges i antal utbildningsår, Erfarenhet anges i antal månader med liknande arbete innan anställning och Anställningstid anges i antal månder i anställning efter den 1 januari 1969. Variabeln Kön är kodad så att 0 betyder kvinna och 1 betyder man. Person Salary (dollar) Educat Exper Months Gender 1 3900 12 0.0 1 0 2 4020 10 44.0 7 0 3 4290 12 5.0 30 0 4 4380 8 6.2 7 0 5 4380 8 7.5 6 0...... 92 6900 15 132.0 24 1 93 8100 16 54.5 33 1 I en studie vill man förklara begynnelselönen med hjälp av regression mot en eller flera av de andra variablerna. Ett antal analyser med hjälp av Minitab görs. En korrelationsmatris mellan variablerna beräknas till följande: Correlations (Pearson) Salary Educat Exper Months Educat 0.412 0.000 Exper 0.167-0.102 0.110 0.333 Months 0.286-0.060 0.077 0.005 0.569 0.465 Gender 0.551 0.327 0.016-0.098 0.000 0.001 0.878 0.351

a) Om man vill göra en multipel regressionsanalys med fler än en förklaringsvariabel, finns då någon uppenbar risk för multikolinjäritetsproblem? Motivera ditt svar. Vidare har en regressionsanalys med förklaringsvariablerna utbildning och kön gjorts enligt nedanstående utskrift: Regression Analysis The regression equation is Salary = 4173 + 80.7 Educat + 692 Gender Predictor Coef StDev T Constant 4173.1 339.2 12.30 Educat 80.70 27.67 2.92 Gender 691.8 132.2 5.23 S = 572.4 Analysis of Variance Source DF SS MS Regression 2 16831744 8415872 Residual Error 90 29491546 327684 Total 92 46323290 Regressionsmodellen formuleras här som y i = β 0 + β 1 x 1i + β 2 x 2i + ε i, där x 1 =Educat och x 2 =Gender. b) Tolka de skattade koefficienterna i modellen. c) Testa på 5% nivå H 0 : β 1 = β 2 = 0 H 1 : Minst en β j 0 d) Beräkna ett 95% konfidensintervall för β 1.

Nedan visas utskriften från en stegvis regression enligt framåtvalsprincipen. Stepwise Regression F-to-Enter: 4.00 F-to-Remove: 4.00 Response is Salary on 4 predictors, with N = 93 Step 1 2 3 4 Constant 5139 4725 3709 3526 Gender 818 868 737 722 T-Value 6.29 7.24 6.14 6.13 Months 23.7 24.3 23.4 T-Value 4.25 4.58 4.50 Educat 84 90 T-Value 3.36 3.65 Exper 1.27 T-Value 2.16 S 596 547 518 507 R-Sq 30.32 41.97 48.50 51.09 e) Beskriv de steg som utförts i den stegvisa regressionen. Varför har variabeln kön (Gender) tagits med först? 14. Företaget Meddicorp säljer medicinsk utrustning till sjukhus och andra former av kliniker i USA. Marknaden delas in i regionerna South, West och Midwest och inom dessa i mindre områden. Nedan finns data för dessa områden år 1994 över försäljning i 1000-tals dollar (sales), reklamkostnader i 100-tals dollar (adv), bonusutbetalningar i 100-talsdollar (bonus), marknadsandelar i procent (mktshr), försäljning hos den största konkurrenten i 1000-tals dollar (compet) samt region (reg). Den sistnämnda är kodad med 1 för region South, 2 för region West och 3 för region Midwest. sales adv bonus mktshr compet region 963.50 374.270 230.980 33 202.220 1 893.00 408.500 236.280 29 252.770 1 1057.25 414.310 271.570 34 293.220 1 1183.25 448.420 291.200 24 202.220 2 1419.50 517.880 282.170 32 303.330 3 1547.75 637.600 321.160 29 353.880 3 1580.00 635.720 294.320 28 374.110 3 1071.50 446.860 305.690 31 404.440 1 1078.25 489.590 238.410 20 394.330 1 1122.50 500.560 271.380 30 303.330 2 1304.75 484.180 332.640 25 333.660 3 1552.25 618.070 261.800 34 353.880 3

1040.00 453.390 235.630 42 262.880 1 1045.25 440.860 249.680 28 333.660 2 1102.25 487.790 232.990 28 232.550 2 1225.25 537.670 272.200 30 273.000 2 1508.00 612.210 266.640 29 323.550 3 1564.25 601.460 277.440 32 404.440 3 1634.75 585.100 312.350 36 283.110 3 1159.25 524.560 292.870 34 222.440 1 1202.75 535.170 268.270 31 283.110 2 1294.25 486.030 309.850 32 242.660 2 1467.50 540.170 291.030 28 333.660 3 1583.75 583.850 289.290 27 313.440 3 1124.75 499.150 272.550 26 374.110 2 Från variabeln region konstrueras tre nya variabler: south=1 om regionen är South och 0 annars west=1 om regionen är West och 0 annars midwest=1 om regionen är Midwest och 0 annars Man prövar först en regressionsmodell där variabeln sales förklaras av variaberna adv och bonus. Modellen blir y = β 0 + β 1 x 1 + β 2 x 2 + ε där x 1 =adv och x 2 =bonus. Resultatet ses nedan: Regression Analysis The regression equation is sales = - 516 + 2,47 adv + 1,86 bonus Predictor Coef StDev Constant -516,4 189,9 adv 2,4732 0,2753 bonus 1,8562 0,7157 S = 90,75 Analysis of Variance Source DF SS MS Regression 2 1067797 533899 Residual Error 22 181176 8235 Total 24 1248974

a) Testa på 5% nivå H 0 : β 1 = β 2 = 0 H 1 : Minst en β j 0 b) Är bägge koefficienterna β 1 och β 2 skilda från 0? Besvara frågan via lämpliga test eller konfidensintervall. c) Nedan följer några residualplottar. Tyder dessa på några brister hos modellen? Motivera dina svar. Man skattar också en modell där variabeln sales förklaras av alla variabler utom de två variablerna region och midwest med följande resultat: Regression Analysis The regression equation is sales = 385 + 1,41 adv + 1,01 bonus + 3,15 mktshr - 0,235 compet - 268 south - 214 west Predictor Coef StDev T P VIF Constant 385,0 219,5 1,75 0,097 adv 1,4092 0,2687 5,24 0,000 3,1 bonus 1,0123 0,4641 2,18 0,043 1,4 mktshr 3,155 2,980 1,06 0,304 1,3 compet -0,2354 0,2338-1,01 0,328 1,6 south -267,96 47,56-5,63 0,000 3,7 west -214,33 36,79-5,83 0,000 2,4 S = 55,57 R-Sq = 95,6% R-Sq(adj) = 94,1%

Analysis of Variance Source DF SS MS F P Regression 6 1193398 198900 64,42 0,000 Residual Error 18 55575 3088 Total 24 1248974 d) I modellen ingår inte variablerna region och midwest. Ändå hävdar någon att modellen omfattar de variabler som finns. Stämmer detta? Motivera ditt svar. e) Finns det några problem med multikolinjaritet i den skattade modellen? Motivera ditt svar. Man skattar vidare en modell där sales förklaras av adv, bonus, south och west med följande resultat: Regression Analysis The regression equation is sales = 435 + 1,37 adv + 0,975 bonus - 258 south - 210 west Predictor Coef StDev Constant 435,1 206,2 adv 1,3678 0,2622 bonus 0,9752 0,4808 south -257,89 48,41 west -209,75 37,42 S = 57,63 Analysis of Variance Source DF SS MS Regression 4 1182560 295640 Residual Error 20 66414 3321 Total 24 1248974 f) Man vill jämföra denna modell med den, som skattades först (dvs den med adv och bonus som förklaringsvariabler). Avgör med ett lämpligt test på 5% nivå om den här senare modellen är bättre.