STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består av fem uppgifter. Uppgifterna ger totalt 50 poäng tillsammans. För full poäng på en uppgift krävs tydliga, utförliga och väl motiverade lösningar. Lycka till! Uppgift 1. (10 poäng) En ekonom ville undersöka sambandet mellan inkomst och sparande och antog följande modell: y = α + β x + ε där x motsvarar månadsinkomst (i 1000-tals kr.) och y motsvarar månadssparande (i 1000-tals kr.). Följande uppgifter erhölls från 10 personer: x y 25 1 43 5 36 2 49 10 37 3 35 6 41 3 38 4 30 2 17 1 a) Skatta modellen. b) Tolka parameterskattningarna. c) Testa på 5% signifikansnivå om β är skild från 0. Vad är din slutsats?
Uppgift 2. (15 poäng) En mäklare vill planera försäljningen av villor. Hon samlar in uppgifter om försäljning, y (milj. kr), folkmängd, x 1 (100 000 pers.) och annonsvolym, x 2 (10 000 kr) i 11 distrikt. Hon funderar på tre möjliga modeller: Modell 1: y = α + β 1 x 1 + β 2 x 2 + ε Modell 2: y = α + β 1x 1 + ε Modell 3: y = α + β 2x 2 + ε I BILAGAN ges SAS-utskrifter inklusive residualplottar (plot mellan skattade y-värden och standardiserade residualer samt histogram för standardiserade residualer) från analyser av respektive modell. a) Fyll i de uppgifter som saknas för modell 1 i utskriften, dvs ersätt de 13 frågetecknen i bilagan. Skriv in dina svar på SÄRSKILT INLÄMNINGBLAD. b) Vad är korrelationen mellan försäljning och folkmängd? c) Vilken modell (modell 1, 2 eller 3) skulle du rekommendera att mäklaren använder? Motivera. d) Tolka parameterskattningarna i den modell du valt i c) ovan. e) Gör en prognos för försäljningen i ett distrikt med folkmängd 500 000 samt annonsvolym 50 000 (använd här endast de uppgifter som är relevanta för ditt val av modell i c). f) Finns det fog att ifrågasätta den valda modellen? Motivera ditt svar. Uppgift 3. (5 poäng) Heteroskedasticitet (icke-konstant varians) är något som ibland är ett problem i samband med linjär regression. a) Vad menas med begreppet heteroskedasticitet (icke-konstant varians)? Ge ett exempel. b) Hur kan man upptäcka heteroskedasticitet? c) Kan heteroskedasticitet förekomma vid både enkel och multipel linjär regression? Motivera.
Uppgift 4. (10 poäng) Följande data visar vinsten (i milj kr) för ett visst företag mellan åren 2000 och 2004. År 2000 2001 2002 2003 2004 Vinst 6 8 11 14 19 Antag att vinsten följer en exponentialfunktion och skatta en lämplig modell. a) Ange den skattade regressionsekvationen. b) Hur stor har den genomsnittliga årliga procentuella vinstökningen varit under perioden enligt modellen? c) Gör en prognos över vinsten år 2008. d) Antag att någon istället föreslår att du ska skatta ett polynom av andra graden (en andragradsfunktion). Du erhåller y = 5 + 0.63 t + 0.43 t 2, där t = 1, 2,, 5. Kan man utifrån denna ekvation uttala sig om vad den årliga genomsnittliga vinstökningen är? Varför/varför inte?
Uppgift 5. (10 poäng) Följande tabell visar försäljningen (i 1000-tal) av en viss vara varje kvartal mellan 2005 och 2007. År Kvartal1 Kvartal2 Kvartal3 Kvartal4 2005 11 13 9 15 2006 12 14 8 18 2007 13 16 7 21 a) Plotta försäljningen över tid i ett lämpligt diagram. Kommentera utvecklingen. b) Bör man använda en additiv eller multiplikativ modell för att uppskatta säsongkomponenter till materialet ovan? Motivera. c) Antag att vi vill använda regressionsanalys för att uppskatta trendkomponent och säsongkomponenter. Antag också att vi har bestämt oss för att skatta en additiv modell. Ett första steg är att skatta en multipel linjär regressionsmodell som innehåller dummyvariabler. Skriv upp denna modell samt definiera variablerna i modellen. e) Antag att vi också vill skatta en multiplikativ modell med hjälp av regressionsanalys. Vi kan således få prognoser både från vår additiva samt vår multiplikativa modell. Beskriv en metod vi kan använda för att statistiskt jämföra prognoserna från de två modellerna. Illustrera gärna med hjälp av formel. f) Finns det någon annan metod (vilken?), förutom regressionsansatsen, vi skulle kunna använda för att säsongrensa datamaterialet? Beskriv eventuella för- och nackdelar med att använda regressionsanalys jämfört med den andra metoden.
BILAGA Modell 1 Beroendevariabel: y Antal lästa observationer 11 Antal använda observationer 11 Variansanalys Summa av Medel- Källa DF kvadrater kvadrat F-värde Sh. > F Modell??? 28.04 0.0002 Fel??? Korrigerad total? 67.92727 Rot MSE? R-kvadrat? Beroende medel 5.74545 Just. R-kvadr.? Koeff.var. 17.91927 Parameterskattningar Parameter- Standard- Variations- Variabel DF skattning fel t-värde Pr > t inflation Skärning 1? 0.78426 0.86 0.4137 0 x1 1 0.68849? 2.23 0.0561 5.82664 x2 1 0.34150 0.36737? 0.3798 5.82664
6 5 Frequency 4 3 2 1 0-1 0 1 2 3 4 Standardiserad residual 5 6
Modell 2 Beroendevariabel: y Antal lästa observationer 11 Antal använda observationer 11 Variansanalys Summa av Medel- Källa DF kvadrater kvadrat F-värde Sh. > F Modell 1 58.53168 58.53168 56.07 <.0001 Fel 9 9.39559 1.04395 Korrigerad total 10 67.92727 Rot MSE 1.02174 R-kvadrat 0.8617 Beroende medel 5.74545 Just. R-kvadr. 0.8463 Koeff.var. 17.78347 Parameterskattningar Parameter- Standard- Variations- Variabel DF skattning fel t-värde Pr > t inflation Skärning 1 0.98117 0.70693 1.39 0.1986 0 x1 1 0.94941 0.12679 7.49 <.0001 1.00000
3,0 2,5 Frequency 2,0 1,5 1,0 0,5 0,0-1,2 0,0 1,2 2,4 Standardiserad residual 3,6
Modell 3 Beroendevariabel: y Antal lästa observationer 11 Antal använda observationer 11 Variansanalys Summa av Medel- Källa DF kvadrater kvadrat F-värde Sh. > F Modell 1 54.16485 54.16485 35.42 0.0002 Fel 9 13.76242 1.52916 Korrigerad total 10 67.92727 Rot MSE 1.23659 R-kvadrat 0.7974 Beroende medel 5.74545 Just. R-kvadr. 0.7749 Koeff.var. 21.52295 Parameterskattningar Parameter- Standard- Variations- Variabel DF skattning fel t-värde Pr > t inflation Skärning 1 0.60244 0.94115 0.64 0.5381 0 x2 1 1.08795 0.18280 5.95 0.0002 1.00000
Histogram of Standardiserad residual 5 4 Frequency 3 2 1 0-1,2 0,0 1,2 2,4 Standardiserad residual 3,6