LINKÖPINGS UNIVERSITET Institutionen för datavetenskap Statistik, ANd 732G71 STATISTIK B, 8hp Civilekonomprogrammet, t3, Ht 09 Extra övningsuppgifter Facit till Extra övningsuppgifter 1. Modellen är en elasticitetsmodell, även om variabelnamnen inte är desamma som i formelsamlingen. Genomgående i lösningen betyder log 10- logaritmen, dvs log 10. a) y = α x β δ, där δ är en slumpkomponent sådan att log δ N(0, σ). b) Logaritmera sambandet log y = log α + β log x + log δ y = α + β x + ε log x log y ( log x) ( log y)/n β skattas med b = (log x) 2 ( log x) 2 = /n 5.93642 (5.30245 10.7542)/10 3.08409 (5.30245) 2 0.8590 /10 α skattas med a = log y b log x = 1.07542 0.8590 0.530245 0.6200 α skattas med a = 10 a = 10 0.6200 4.169 c) t = b/s b. s b = MSE (log x) 2 ( log x) 2 och MSE = SSE/8 där /n SSE = (log y) 2 a log y b (log x) (log y) = 11.8025 0.6200 10.7542 0.8590 5.93642 0.036. 0.036/8 s b = 3.08409 (5.30245) 2 0.129 och t = 0.8590/0.129 /10 6.7 t [8] 0.005 = 3.355 < 6.7 H 0 förkastas! d) 95% P.I. för y 0: 0.6200+0.8590 log 5.0±2.306 0.036 8 ( ) 1 + 10 1 (log 5.0 0.530245)2 + 3.08409 (5.30245) 2 /10 1.220 ± 0.170 = (1.050, 1.390) 95% P.I. för y blir (10 1.050, 10 1.390 ) (11.22, 24.55) Om antagandet om modellen stämmer beträffande δ får intervallet 95% säkerhet. 2. Genomgående i lösningen betyder log 10-logaritmen, dvs log 10. a) Q = α p Ep δ, där Q =Antal sålda enheter och p är endera Pris/KPI eller Prisindex/KPI. E p är priselsaticiteten (vid isoelastiskt samband) och δ är en slumpkomponent sådan att log δ N(0, σ). v g v
b) Logaritmera modellen: log Q = log α + E p log p + log δ Motsvarar enkel linjär regression med y = log Q, x = log p, β 0 = log α och β 1 = E p. Följande summor behövs: log p, log Q, (log p) 2, (log Q) 2 och (log p) (log Q). log Q = 21.5570, (log Q) 2 = 58.1052 Alt. 1: Låt p =Pris/KPI log p = 6.9485, (log p) 2 = 6.0394, (log p) (log Q) = 18.7288 (log p) (log Q) ( log p) ( log Q)/n Êp = (log p) 2 ( log p) 2 = /n 18.7288 ( 6.9485) (21.557)/8 6.0394 ( 6.9485) 2 = 1.218 /8 Alt. 2: Låt p =Prisindex/KPI. Prisindex fås genom att dividera alla prisvärden med (t ex) det första (ger basår 1) och sedan multiplicera med 100. log p = 4.1742, (log p) 2 = 2.1822, (log p) (log Q) = 11.2531 11.2531 ( 4.1742) (21.558)/8 Êp = 2.1822 ( 4.1742) 2 = 1.218 /8 Vi får alltså samma resultat och det hade vi även fått med olika val av basår i Prisindexet och/eller KPI. Det som ändras är skattningen av α, men denna utnyttjas ju inte just här. c) Vi använder anpassningen enligt alt. 2 här, men det går lika bra med alt. 1. Test av H 0 : E p = 1 mot H 1 : E p 1 Testfunktion: t = b ( 1) s b = Ê p ( 1) (SSE/(n 2))/( (log p) 2 ( log p) 2 /n) SSE = SST Êp ( (log p) (log Q) n log p log Q) = 58.1052 (21.5570) 2 /8 ( 1.218) ( 11.2531 8 ( 4.1742/8) (21.5570/8)) 0.011 1.218 ( 1) t = (0.011/6)/(2.1822 (( 4.1742) 2 0.33 t[6] 0.025 /8)) = 2.447 0.33 < 2.447 H 0 kan ej förkastas. d) Q E = a p c p log a = log Q Êp log p = (21.5570/8) ( 1.218) ( 4.1742/8) 2.059 Prognos av förändring i logaritmerad efterfrågan: δ(logq) = (log a+êp log(1.02 p)) (log a+êp log p) = Êp (log 1.02+ log p) Êp log p = = Êp log 1.02 = ( 1.218) log 1.02 0.0105 Obervera alltså att log a inte behövs! Efterfrågan minskar till 10 0.0105 = 0.9762 = 97.62% av tidigare värde, dvs en minskning med c:a 2.38%. Alternativt kan man direkt se detta som (1.02) 1.218 0.9762. Då förändringen är liten fungerar det också hyfsta att approximera med Êp δp = 1.218 2% 2.44%.
3. Modellen är en elasticitetsmodell även om variabelnamnen ej överensstämmer med de i formelsamlingen. Genomgående i lösningen betyder log 10-logaritmen, dvs log 10. a) ˆθ (log x) (log y) n log x log y = (log x) 2 n (log x) 2 log x = log(x1 x 2... x 12 ) = log 21322.1 4.3288, log y = log(y 1 y 2... y 12 ) = log 395583 5.5972. ˆθ 2.24964 12 (4.3288/12) (5.5972/12) = 1.77402 12 (4.3288/12) 2 1.085 log ˆγ = log y ˆθ log x = (5.5972/12) 1.085 (4.3288/12) 0.075 ˆγ = 10 0.075 1.189 b) SSE = (log y) 2 (log ˆγ) log y ˆθ (log x) (log y) = = 2.90207 0.075 5.5972 1.085 2.24964 0.0414 95% K.I. för θ: ˆθ ± t [n 2] SSE/(n 2) 0.025 (log x) 2 n (log x) = 2 0.0414/10 = 1.085 ± 2.228 1.77402 12 (4.3288/12) 2 1.085 ± 0.331 = (0.754, 1.416) c) ŷ = 1.189 3.0 1.085 3.92 99% P.I. för log y: ( ) log ŷ ± t [n 2] 0.005 SSE n 2 1 + n 1 + (log x 0 log x) 2 (log x) 2 n (log x) 2 = 0.075+1.085 (log 3.0)±3.169 0.0414 10 (0.374, 0.811) 99% P.I. för y blir: (10 0.374, 10 0.811 ) (2.37, 6.47) 4. a) Analys 1: Volym= β 0 + β 1 RPI + β 2 INK + ε Analys 2: Volym=α RPI Ep INK EI δ b) Analys 2 Êp = 0.5996 ( ) 1 + 12 1 (log 3.0 (4.3288/12))2 + 1.77402 12 (4.3288/12) 2 c) Test av H 0 : E I = 0 mot E I 0. Testet finns i utskriften till Analys 2. t-kvoten=1.35 och P -värdet=0.196> 0.05 H 0 kan ej förkastas, dvs vi kan inte hävda att varan är inkomstelastisk. 5. a) Framåtval: I de två analyserna med en variabel har den med RPI högst R 2 och RPI blir även signifikant. Denna variabel skall alltså vara med. I analysen med två variabler blir inte variabeln INK signifikant och den slutliga modellen blri därför den med RPI, dvs Volym= α RPI Ep δ. Bakåteliminering: I modellen med två variabler blir INK ej signifikan. Den tas då bort. I den resulterande modellen med endast RPI blir denna signfikant. Slutlig modell blir då densamma som för framåtval. v g v
b) Test av H 0 : E p 1 mot H 1 : E p > 1. Testfunktion: t = Ê p ( 1) s Ep 0.5996 ( 1) I analys 2: t = 1.78 t [15] 0.2237 0.05 = 1.753 < 1.78 H 0 förkastas. Svar: Nej. 0.6102 ( 1) I analys 3: t = 1.70 t [16] 0.2293 0.05 = 1.746 > 1.70 H 0 kan ej förkastas. Svar: Tänkbart. I testet har vi utgått från att en vara är priskänslig om priselasticiteteten är 1 eller lägre. Det blir då naturligt att definiera hypoteserna enligt ovan. Om man å andra sidan menar att priskänslighet gäller då priselasticiteten är lägre än 1 blir H 0 : E p 1 mot H 1 : E p < 1 och i detta fall kan man inte förkasta H 0 i någon av analyserna. Sluttutalandet blir då med statistiskt språkbruk svagare, men bygger på samma underlag. Det är alltså viktigt att formulera hypoteserna efter vad det är man vill försöka påvisa. c) Ledning: Använd endera den första analysen i den andra Minitabkörningen och skissa Volym som funktion av RPI enligt sambandet: Volym=10 6.76 RPI 0.610 5754400 RPI 0.61. INK=40000 kommer inte in här. Eller, använd den andra analysen i den första Minitab-körningen och skissa Volym som funktion av RPI enligt sambandet: Volym=10 5.80 RPI 0.5996 40000 0.206 5597890 RPI 0.60 Välj i bägge fallen värden på RPI i paritet med värdena i tabellen över datamaterialet. 6. Säsongrensning: y t = y t sn t År (t) Halvår y t sn t yt 1 262.9 1-78.075 341.0 2 448.3 2 78.075 370.2 3 315.0 1-78.075 393.1 4 487.6 2 78.075 409.5 5 339.4 1-78.075 417.5 6 468.1 2 78.075 390.0 7 374.4 1-78.075 452.5 8 508.3 2 78.075 430.2 9 375.8 1-78.075 453.9 10 585.4 2 78.075 507.3 11 438.5 1-78.075 516.6 12 663.1 2 78.075 585.0
7. Säsongrensning: y t = y t /sn t Tidsper. t y t sn t yt apr 91 sep 91 1 9759.7 1.37 7123.9 okt 91 mar 92 2 7861.5 0.63 12478.6 apr 92 sep 92 3 12452.4 1.37 9089.0 okt 92 mar 93 4 7056.9 0.63 11201.4 apr 93 sep 93 5 17874.2 1.37 13046.9 okt 93 mar 94 6 12421.6 0.63 19716.8 För att skatta tillväxtfaktorn anpassar vi modellen: yt = β 0 (β 1 ) t δ. Logaritmera säsongrensade värden och anpassa med enkel linjär regression modellen log yt = log β 0 + (log β 1 ) t + log δ. Med 10-logaritmen (lg): t = 21, log y t = 24.3670, t 2 = 91, (log yt ) 2 = 99.0715, t (log yt ) = 86.4642. Tillväxtfaktorn är 100 (β 1 1)%. Vi skattar först log β 1 med: t (log y log b = t ) ( t ( log yt )/6 t 2 ( t) 2 = /6 86.4642 21 24.3670/6 = 91 (21) 2 0.0674 /6 β 1 = 10 0.0674 1.168 Tillväxtfaktorn skattas till 16.8%. Med naturliga logaritmen (ln): t = 21, log y t = 56.1071, t 2 = 91, (log yt ) 2 = 525.2669, t (log yt ) = 199.0913. Tillväxtfaktorn är 100 (β 1 1)%. Vi skattar först log β 1 med: t (log y log b = t ) ( t ( log yt )/6 t 2 ( t) 2 = /6 199.0913 21 56.1071/6 = 91 (21) 2 0.1552 /6 β 1 = e 0.1552 1.168 Tillväxtfaktorn skattas till 16.8%. Notera alltså att valet av logaritm inte spelar någon roll för slutresultatet. Vidare gäller den skattade faktorn tillväxten per halvår. Skattad tillväxt per år blir ((1.168) 2 1) 100% 36%
8. Plotten har följande utseende: Säsongsvariationen är stor i detta datamaterial och nivån varierar inte särskilt mycket. Det förefaller då klokast att använda en additiv modell. Använd därför den andra delen av analysen (säsongkomponenterna varierar runt 0 där). sn 1 = 480.063 I första kvartalet är antal uthyrda soltimmar i genomsnitt c:a 480 timmar högre än genomsnittsnivån sn 2 = 118.812 I andra kvartalet är antal uthyrda soltimmar i genomsnitt c:a 119 timmar högre än genomsnittsnivån sn 3 = 585.938 I tredje kvartalet är antal uthyrda soltimmar i genomsnitt c:a 586 timmar lägre än genomsnittsnivån sn 3 = 12.9375 I fjärde kvartalet är antal uthyrda soltimmar i genomsnitt c:a 13 timmar lägre än genomsnittsnivån
9. a) De skattade säsongkomponenterna varierar runt 1 Multiplikativ modell har använts. b) n = 76 första kvartalet 1999 motsvarar tidpunkt 77. ŷ 77 = tr 77 sn 1 eftersom ingen skattning av en ev. cyklisk komponnet finns med och ir alltid sätts till 1 i en prognos ŷ 77 = (17663.6 + 357.157 77) 0.961977 43447 c) Prognoserna beräknade med Winter s metod är lägre och verkar återspegla att konsumtionstrenden börjar vika nedåt mot slutet av tidsserien. Detta kan inte den klassiska modellen fånga upp och prognoserna enligt Winter s metod blir därför mer trovärdiga. 10. a) De skattade säsongkomponenterna varierar runt 1 Multiplikativ modell har använts. Ingen cyklisk komponent har modellerats y t = TR t SN t IR t. b) sn 1 = 0.893847 I första kvartalet ligger försäljningen i genomsnitt (1 0.893847) 100% 10.6% lägre än genomsnittsnivån sn 2 = 1.06817 I andra kvartalet ligger försäljningen i genomsnitt (1.06817 1) 100% 6.8% högre än genomsnittsnivån sn 3 = 1.014363 I tredje kvartalet ligger försäljningen i genomsnitt c:a 14.4% högre än genomsnittsnivån sn 4 = 0.894351 I tredje kvartalet ligger försäljningen i genomsnitt c:a 10.6% lägre än genomsnittsnivån c) n = 16 Kvartal 1, 2002 motsvarar tidpunkt 17 och kvartal 2, 2002 motsvarar tidpunkt 18. ŷ 17 = (103.125 + 0.823529 17) 0.893847 104.7 ŷ 18 = (103.125 + 0.823529 18) 1.06817 126.0 d) Prognoserna med Winters s metod ligger ganska nära prognoserna i b) uppgiften. Man ser dock att anpassningen med Winter s metod ger högre värden på avvikelsemåtten, vilket skulle tala för att prognoserna med den klassiska metoden är att föredra. Ett motiv för att använda prognoserna med Winter s metod är kanske att de är något lägre och därmed inte så optimistiska. Möjligen finns det en tendens till att trenden i försäljning mattas mot slutet av tidsserien och det är då detta som Winter s metod fångar upp. Sammanfattningsvis är det svårt att avgöra i dessa analyser vilken som är bäst. Bägge duger nog på sitt sätt.
11. b) y i = β 0 + β 1 x 1i + ε i, i = 1,..., 10 där β 0 är en nivåjusterande konstant, β 1 anger förändringen i genomsnittligt huspris när befolkningen ökar med 1000 personer, samt ε 1,... ε 10 är oberoende och N(0, σ) fördelade slumpkomponenter. c) β x1i y 1 = b 1 = i ( x 1i ) ( y i )/n (x1i ) 2 ( x 1i ) 2 = /n 3143.09 1654 12.43/10 = 0.00247 713242 (1654) 2 /10 β 0 = b 0 = ȳ b 1 x = 12.43 10 0.00247 1654 10 0.834 d) R 2 = SSR SSE där SSR = SST SSE och SST = y 2 i ( y i ) 2 /n = 18.705 (12.43) 2 /10 3.255 SSE = y 2 i b 0 y i b 1 x1i y i = = 18.705 0.834 12.43 0.00247 3143.09 0.575 SSR = 3.255 0.575 = 2.680 R 2 = 2.680/3.255 0.823 = 82.3% e) Test av H 0 : β 1 = 0 mot H 1 : β 1 0: Testfunktion t = b 1 s b1 = b 1 = SSE/(n 2) (x1i x 1 ) 2 = 0.00247 6.11 0.575/8 713242 (1645) 2 /10 t [8] 0.025 = 2.306 < 6.11 H 0 förkastas! Alt. Testfunktion F = MSR MSE = 2.680/1 0.575/8 37.3 F [1,8] 0.05 = 5.32 < 37.3 H 0 förkastas! f) 100000 inv. x 0 = 100. 95% P.I. för y 0 : ( ) 0.834 + 0.00247 100 ± 2.306 0.575 8 1 + 10 1 + (100 165.4) 2 713242 (1654) 2 /10 1.081 ± 0.651 = (0.430, 1.732)
12. a) Anpassad modell för kommuner med icke borgerlig majoritet: ŷ = 0.856 + 0.00243 x 1 b 0 = 0.856 är inte tolkningsbar, b 1 = 0.00243 tolkas som att genomsnittspriset för ett hus ökar med 0.00243 miljoner kronor, dvs 2430 kronor då befolkningen ökar med 1000 personer. Anpassad modell för kommuner med borgerlig majoritet: ŷ = (0.856 1.03) + (0.00243 + 0.0116) x 1 = 0.174 + 0.01403 x 1 Värdet 0.174 är inte tolkningsbart. Värdet 0.01403 tolkas som att genomsnittspriset för ett hus ökar med 0.01403 miljoner kronor, dvs 14030 kronor då befolkningen ökar med 1000 personer. b) Teckna modellen: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ε Test av H 0 : β 2 = 0 mot H 1 : β 2 0: Testfunktion t = b 2 s b2 = 1.030 1.085 0.95 t [6] 0.025 = 2.447. 0.95 < 2.447 H 0 kan ej förkastas. Svar: Nej! c) Test av H 0 : β 3 = 0 mot H 1 : β 3 0: Testfunktion t = b 3 s b3 = 0.01163 0.01249 0.93 0.93 < 2.447 H 0 kan ej förkastas. Svar: Nej! d) Test av H 0 : β 2 = β 3 = 0 mot H 1 : Minst en av β 2 och β 3 0: Partiellt F-test: Testfunktion F = (SSE R SSE C )/2 SSE C /6 SSE R tas från uppgift 11 till 0.575 F = (0.575 0.49256)/2 0.49256/6 0.502 F [2,6] 0.05 = 5.14 > 0.502 H 0 kan ej förkastas. Svar Nej! 13. a) Knappast, eftersom korrelationerna mellan x variablerna ä relativt låga. b) b 0 = 4173 är ej tolkningsbar. b 1 = 80.7 tolkas som att genomsnittlig begynnelselön ökar med 80.7 dollar per år i utbildning., b 2 = 692 tolkas som att genomsnittlig begynnelslön för män är 692 dollar högre än den hos kvinnor för personer med lika lång utbildning. c) Testfunktion F = MSE MSR = 8415872 327684 25.7 F [2,90] 0.05 finns ej i tabell, men man ser att värdet måste vara lägre än 4 och därmed klart lägre än 25.7 H 0 förkastas! v g v
d) t [90] 0.025 1.96 80.70 ± 1.96 27.67 80.70 ± 54.23 e) Kön tas med först ty den har högst absolut korrelation med y. I varje steg läggs den variabel till, som ger den högst förklaringsgraden tillsammans med tidigare invalda variabler. Om den nya variabeln blir signifikant behålls den i modellen. I utskriften skrivs t-kvoterna i dessa signifikanstest ut och vi kan se att samtliga är relativt stora. Jämförelsesn kommer i varje steg att göras med 1.96 eftersom vi har ett mycket stort antal frihetsgrader. Detta innebär att samtliga fyra förklaringsvariabler kommer att tas med i den slutliga modellen. 14. a) Testfunktion F = MSE MSR = 533899 8235 64.8 F [2,22] 0.05 = 3.44 < 64.8 H 0 förkastas! b) Testa 1) H 01 : β 1 = 0 mot H 11 : β 1 0: Testfunktion t = b 1 s b1 = 2.4732 0.2753 8.98 t [22] 0.025 = 2.074 < 8.98 H 01 förkastas! 2) H 02 : β 2 = 0 mot H 12 : β 2 0: Testfunktion t = b 2 s b2 = frac1.85620.7157 2.59 2.59 > 2.074 H 02 förkastas! Svar: Ja, bägge koefficienterna är skilda från 0. c) Histogrammet ser en aning konstigt ut, varför antagandet om normalfördelning kan ifrågasättas. Diagrammet med residualer mot anpassade värden (fits) tyder ev. på ökad spridning med ökad nivå hos y, vatför man kanske också bör ifrågasätta antagandet om konstant slumpvarians. d) Variabeln Region representeras fullt ut av variablerna South, Midwest och West. I regressionsmodellen skall dock bara två av dessa användas eftersom den tredje då ingår automatiskt. Svaret på frågan är alltså Ja! e) Nej knappast! Inget av VIF-värdena överstiger 10 och alla skattade lutningsparametrar har rimliga tecken om man ser till vilka variabler de står framför. f) Partiellt F -test för tillägg av två variabler: F = (SSE R SSE C )/2 (181176 66414)/2 = 17.3 SSE C /20 66414/20 F [2,20] 0.05 = 3.49 < 17.3 Den större modellen är bättre.