1 STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Statistisk dataanalys III (SDA III), 3 högskolepoäng ingående i kursen Undersökningsmetodik och statistisk dataanalys, 15 högskolepoäng, den 29 oktober 2008 kl 18.00 20.00. Resultatet anslås senast den 5 november på anslagstavlan, plan 3. Skrivtid: 2 timmar. Hjälpmedel: godkänd miniräknare utan lagrade formler eller text. Tentamen består av 18 uppgifter som kan ge totalt 25 poäng, således sju stycken tvåpoängsuppgifter. Examinationen betraktas som avklarad om poäng motsvarande lägst betyget E uppnås. Följande betygsgränser gäller: Betyg Poäng A 24-25 B 22-23 C 19-21 D 17-18 E 15-16 Fx 12-14 F 0-11 Observera att felaktiga svar ej ger minuspoäng. Använd den särskilda svarsbilagan och ringa in det svarsalternativ som du tycker bäst besvarar frågan. Fler inringade alternativ samt andra oklarheter gör att frågan anses obesvarad. Observera att endast den särskilda svarsbilagan skall lämnas in. Beräkningar beaktas ej. Var noga med att tydligt skriva namn och personnummer på svarsbilagans båda sidor. Skriv dessutom på svarsbilagans båda sidor det platsnummer du har i tentamenssalen. LYCKA TILL!. 1. Vi har ett material om tre stycken observationspar (x i y i ) som är (1, -1), (1, -5), och (0, 2). Om vi med hjälp av minsta kvadratmetoden skattar en regressionsekvation till detta material får den vilken form? (2 poäng) a) y = 4 0,75x b) y = 7,2 10,35x c) y = 1 + 0,3x d) y = 2 5x
2 2. En miljöforskare studerade ett urval om 9 personbilar av samma modell och uppmätte deras utsläpp av svaveldioxid i gram per timmes körning. Bilarna var mellan 7 och 14 år gamla. En minitabkörning gav följande resultat; Regression Analysis: Svaveldioxid versus Ålder The regression equation is Svaveldioxid = - 22,4 + 6,08 Ålder Predictor Coef SE Coef T P Constant -22,42 19,69-1,14 0,292 Ålder 6,082 1,813 3,35 0,012 S = 13,8349 R-Sq = 61,6% R-Sq(adj) = 56,2% Grafiskt ser sambandet ut enligt; 100 Scatterplot of Svaveldioxid vs Ålder 90 80 Svaveldioxid 70 60 50 40 30 20 7 8 9 10 Ålder 11 12 13 14
3 (forts fråga 2) Gör en tolkning av determinationskoefficienten? (2 poäng) a) 22,4 procent av svaveldioxidutsläppen förklaras av åldern på bilen. b) Svaveldioxidutsläppen ökar med ca 6 gram per timmes körning för varje år äldre bilen är. c) Svaveldioxidutsläppen ökar med ca 6 procent per timmes körning för varje år äldre bilen är. d) Drygt 60 procent av variationen i uppmätta svaveldioxidutsläpp förklaras av den anpassade regressionslinjen. 3. Hur stor är regressionskoefficienten för modellen i fråga 2? a) 0,616 b) 6,082 c) 0,785 d) 13,835 4. Hur skall interceptet (konstanten) i modellen tolkas? a) Den kan inte ges någon rimlig tolkning. b) För en nytillverkad bil gäller att den i genomsnitt har 22,4 procent lägre svaveldioxidutsläpp. c) För en nytillverkad bil gäller att den i genomsnitt har 22,4 gram lägre svaveldioxidutsläpp. d) 22,4 procent av svaveldioxidutsläppen förklaras av åldern på bilen. 5. Hur stor är residualvariansen i materialet i fråga 2? a) 13,8 b) 191,4 c) 61,6 procent. d) 0,785 6. Skatta med hjälp av modellen i fråga 2 hur mycket svaveldioxid per timmes körning en 12 år gammal bil släpper ut?. a) 51,1 b) 50,6 c) 63,2 d) 72,6
4 7. Vilket av följande påståenden om materialet i fråga 2 är sant? (2 poäng) a) Om vi trimmar materialet och tar bort den observation som har den största residualen blir regressionskoefficienten högre och korrelationskoefficienten lägre. b) Om vi trimmar materialet och tar bort den observation som har den största residualen blir både determinationskoefficienten och regressionskoefficienten lägre. c) Om vi trimmar materialet och tar bort den observation som har den största residualen blir korrelationskoefficienten lägre. d) Om vi trimmar materialet och tar bort den observation som har den största residualen blir modellens intercept större. 8. Följande indexserie visar prisutvecklingen för en viss vara; År 2003 2004 2005 2006 2007 Pris 100 115 98 95 105 Med hur många procent sjönk priset mellan år 2004 och 2006? a) 21,6 b) 17,4 c) 20 d) Kan ej bestämmas. 9. Hur stor har den genomsnittliga årliga procentuella förändringen varit för materialet i fråga 8? a) 0,98 b) 11,25 c) 1,23 d) 2 10. Vad kallas det belopp som är knutet till konsumentprisindex och som kan betraktas som ett levnadskostnadsindex? a) NPI-beloppet. b) Levnadskostnadsbeloppet. c) Prisbasbeloppet. d) Försörjningsindexbeloppet.
5 11. Betrakta följande påståenden: Påstående 1: KPI visar prisutvecklingen rensad från indirekta skatter och subventioner. Påstående 2: KPI är sett till beräkningsmetoden ett utpräglat kedjeindex. a) Påstående 1 är sant och påstående 2 är falskt. b) Påstående 1 är falskt och påstående 2 är sant. c) Båda påståendena är sanna. d) Inget av påståendena är sant. 12. För tre olika varor A, B och C vill vi studera prisutvecklingen från 1997 till 2007. Vara A kostade 1997 20 kronor och det såldes 35 stycken. 2007 kostade den 25 kronor och försäljningen hade fördubblats i antal räknat. Vara B kostade 1997 25 kronor och det såldes 50 stycken. 2007 var både pris och kvantitet för vara B oförändrade. Vara C kostade 1997 50 kronor och 50 stycken såldes. År 2007 hade priset på vara C stigit med 50 procent och försäljningen halverats i antal räknat. Vad blir ett Laspeyres fastbasindex för år 2007 för de tre varorna sammantaget (1997=100)? (2 poäng) a) 123,3 b) 127,2 c) 132,0 d) 125,0 13. Beräknat på samma material som i fråga 12; vad blir ett Paasches fastbasindex för år 2007 för de tre varorna sammantaget (1997=100)? a) 123,3 b) 127,2 c) 132,0 d) 125,0 14. Betrakta följande påståenden: Påstående 1: Rangkorrelationskoefficienten ligger i intervallet 0 och 1. Påstående 2: Logistisk regression förutsätter att den beroende variabeln är kvantitativ. a) Påstående 1 är sant och påstående 2 är falskt. b) Påstående 1 är falskt och påstående 2 är sant. c) Båda påståendena är sanna. d) Inget av påståendena är sant.
6 15. Studera följande tidsserie: Antal besökare 600 500 400 300 200 100 0 2003 2004 2005 2006 2007 Utvecklingen ovan beskrivs bäst med hjälp av en: a) linjär modell eftersom den årliga absoluta ökningen är ungefärligen konstant. b) linjär modell eftersom den årliga relativa ökningen är ungefärligen konstant. c) exponentiell modell eftersom den årliga absoluta ökningen är ungefärligen konstant. d) exponentiell modell eftersom den årliga relativa ökningen är ungefärligen konstant. 16. Antag att vi använder en prognosmodell med följande utseende: ŷ = 208 1,03 t där t = 1 betyder år 2006 och t = 1 betyder år 2005 Vad blir det skattade värdet för år 2008? (2 poäng) a) 241,1 b) 255,8 c) 236,7 d) 227,3
7 17. Vi har en tidsserie med kvartalsdata; 7 observationer av ett företags omsättning (i miljoner kronor) från första kvartalet 2007 till tredje kvartalet 2008, enligt; Kvartal Omsättning Mkr 2007:1 210 2007:2 220 2007:3 215 2007:4 240 2008:1 220 2008:2 235 2008:3 225 Vad blir om du använder ett centrerat femleds glidande medelvärde det första skattade värdet, alltså trendvärdet för tredje kvartalet 2007? (2 poäng) a) 222,90 b) 222,50 c) 223,75 d) 221,00 18. Antag att du med hjälp av ett glidande medelvärde skattat en trend över en viss tertialredovisad rörelseresultatserie och använt denna skattning till att beräkna säsongskoefficienter i en multiplikativ modell, eftersom du vill säsongsrensa materialet. För första tertialet blir efter justering denna säsongskoefficient 0,7. Om man använder Körner & Wahlgrens terminologi; säsongsindex är 70. Hur skall detta tolkas? (2 poäng) a) Under första tertialet ligger rörelseresultatet ungefär 30 procent under det beräknade b) Under första tertialet ligger rörelseresultatet ungefär 30 procent över det beräknade c) Under första tertialet ligger rörelseresultatet ungefär 70 procent under det beräknade d) Under första tertialet ligger rörelseresultatet ungefär 43 procent över det beräknade