Räkneövning 5 Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari 016 1 Om uppgifterna För Uppgift kan man med fördel ta hjälp av Minitab. I de fall en figur för tidsserien efterfrågas kan du antingen göra en enkel skiss eller använda Minitab. Uppgift 1 Antag att en tidsserie bestående av årsdata utvecklas på ett sådant sätt att trenden fördubblas vart femte år. 1. Ange, med motivering, en trendfunktion som du anser vara lämplig för att beskriva en sådan tidsserie. Lösning: Om trenden fördubblas vart femte år är en exponentiell trend, T t = β 0 β t 1, en lämplig trendfunktion.. Även om man inte har tillgång till de observerade värdena på tidsserien kan en av trendfunktionens parametrar beräknas. Genomför beräkningen och tolka det erhållna värdet. Lösning: Vi vet att trenden fördubblas vart femte år. Det betyder 1
att trenden för t + 5 dividerat med trenden för t ska vara lika med. Vi får T t+5 = β 0β1 t+5 T t β 0 β1 t = βt+5 1 β1 t = β t+5 t 1 = β 5 1 = För att få fram parametern β 1 kan vi höja upp både vänster- och högerled med 1/5, vilket ger: 3 Uppgift β 1 = 1/5 1,15. I Tabell 1 redovisas antal förvärvsarbetande personer boende i Uppsala län som pendlar över länsgränsen. År Antal År Antal År Antal År Antal År Antal 004 3785 006 34698 008 37999 010 38053 01 3804 005 33379 007 36899 009 37070 011 37817 013 38309 Tabell 1: Antal förvärvsarbetande utpendlare över länsgräns, Uppsala 1. Rita figuren. Lösning: Se figur 1a.. Beräkna ett glidande medelvärde för serien där du använder tre lika vikter. Rita figuren. Lösning: Använd M t = 1 3 (y t 1 + y t + y t+1 ), t = 005,..., 01. Resultatet redovisas i tabell. Se även figur 1b. 3. På vilket sätt kan det vara problematiskt att använda sig av ett jämnt antal vikter? Lösning: Med udda antal vikter blir det naturligt att placera medelvärdet i mitten. Med jämnt antal vikter hamnar medelvärdet mellan två observationer. Jämför med situationen då vi är intresserade av medianen men har jämnt antal observationer.
39000 38000 39000 38000 Variable Pendlare Medel 37000 37000 Pendlare 36000 35000 34000 Pendlare 36000 35000 34000 33000 33000 3000 004 006 008 År 010 01 3000 004 007 010 Year 013 (a) Originaldata (b) Originaldata och glidande medel Figur 1: Antal utpendlare över länsgränsen Pendlare M t 004 3785 * 005 33379 3360,7 006 34698 3499,0 007 36899 3653,0 008 37999 373,7 009 37070 37707,3 010 38053 37646,7 011 37817 3804,7 01 3804 38110,0 013 38309 * Tabell : Antal förvärvsarbetande utpendlare över länsgräns och glidande medelvärde 4 Uppgift 3 Antal invånare i Uppsala mellan 000 och 014 redovisas i Tabell 3. En enkel linjär regression, E(Y t ) = β 0 + β 1 t, där t är antal år efter 1999, är föreslagen för att göra prognoser för befolkningsutvecklingen. 1. Skatta modellen med minsta kvadrat-metoden. Tolka resultatet. 3
År Antal År Antal År Antal 000 177,4 005 183,3 010 197,8 001 178,7 006 185, 011 00,0 00 179,7 007 187,5 01 0,6 003 180,7 008 190,7 013 05, 004 18,1 009 194,8 014 07,4 Tabell 3: Befolkningsmängd i Uppsala kommun (tusental) Lösning: Till vår hjälp har vi beräkningarna: 15 t=1 y t = 583,1, 15 15 t = 10, ty t = 3461,1, t=1 t=1 15 t=1 t = 140. Vi skattar lutningskoefficienten: tyt ˆβ 1 yt 15 t 1 = t 1 ( t) = 3461,1 1 583,1 10 15 140 1 =,7. 15 15 10 Interceptet får vi från: y ˆβ 0 = 15 ˆβ t 1 15 = 583,1,75 10 15 15 = 17,03 Den skattade modellen är således ŷ t = ˆβ 0 + ˆβ 1 t = 17,03 +,7t.. Utvärdera modellens anpassningsförmåga. Lösning: Från Minitab får vi följande output: Regression Analysis: Invånare versus t Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 1445,99 1445,99 409,38 0,000 t 1 1445,99 1445,99 409,38 0,000 4
Error 13 45,9 3,53 Total 14 1491,91 Model Summary S R-sq R-sq(adj) R-sq(pred) 1,87939 96,9% 96,69% 95,78% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 17,03 1,0 168,46 0,000 t,7 0,11 0,3 0,000 1,00 Regression Equation Invånare = 17,03 +,7 t Från outputen ser vi att modellen som sådan är signifikant. Vi har också en hög förklaringsgrad, men detta är vanligt förekommande vid serier med trend och bör tolkas försiktigt. Trendkoefficienten är signifikant skild från noll. För att få en uppfattning om hur mycket vi kan lite på slutsatserna ovan, som ju bygger på våra antaganden, har vi i figur olika figurer för inspektion av residualerna. Från figurerna ser vi tydligt att vi framförallt har ett stort problem: residualerna tycks vara korrelerade (figuren i nedre högra hörnet). Därmed är våra medelfel med största sannolikhet fel, vilket gör att vi bör vara försiktiga med att dra några slutsatser i de test vi har gjort. Dessutom har vi ett litet stickprov, 15 observationer, vilket också betyder att vi inte kan förlita oss på att vi har ett stort stickprov för våra test. 3. Beräkna och tolka ett prediktionsintervall för 015 och 016 med α = 0,05. 5
Residual Plots for Invånare Percent 99 90 50 10 Normal Probability Plot Residual 3,0 1,5 0,0-1,5 Versus Fits 1-5,0 -,5 0,0,5 Residual 5,0-3,0 170 180 190 00 Fitted Value 10 Histogram Versus Order Frequency 6,0 4,5 3,0 1,5 0,0-3 - -1 0 1 Residual 3 Residual 3,0 1,5 0,0-1,5-3,0 1 3 4 5 6 7 8 9 10 11 1 13 14 15 Observation Order Figur : Residualgrafer Lösning: 015 och 016 motsvaras av t = 16 och t = 17. Vi gör våra prediktioner och får då följande resultat: ŷ 16 = 17,03 +,7 16 = 08,387 ŷ 17 = 17,03 +,7 17 = 10,659. För prediktionsintervallen kan vi förlita oss på Minitab. Vi får då följande utskrift. Prediction for Invånare Regression Equation Invånare = 17,03 +,7 t Variable Setting t 16 Fit SE Fit 95% CI 95% PI 08,387 1,0118 (06,181; 10,593) (03,766; 13,008) Variable Setting 6
t 17 Fit SE Fit 95% CI 95% PI 10,659 1,118 (08,37; 13,08) (05,931; 15,387) Prediktionsintervallen är alltså (03,8; 13,0) för 015 och (05,9; 15,4) för 016. Det vill säga, med 95 % säkerhet säger modellen att befolkningsmängden i Uppsala 015 kommer att vara mellan 03 800 och 13 000, medan den för 016 med 95 % säkerhet tros vara mellan 05 900 och 15 400 invånare. 4. Beskriv problemen som är associerade med användning av en enkel linjär regression för att prognostisera tidsseriedata. Lösning: Trendfunktionen antas vara konstant. Därmed finns inte utrymme för några cykliska effekter. Som vi såg i residualanalysen var residualerna korrelerade. Detta är ett tecken på att modellen inte har fångat allt, utan det är någonting som kvarstår. Det som är kvar i det här fallet är troligtvis en cyklisk komponent. Detta ger ytterligare problem för oss, då vi får vara försiktiga md att dra slutsatser eftersom medelfelen troligtivs är inkorrekta. 5 Uppgift 4 Konsumentprisindex (KPI) mäter förändringen i prisnivån relativt till ett basår. KPI för Sverige under perioden 000-014 med 1980 som basår visas i Tabell 4. 1. Rita figuren. Finner du en långsiktig trend? Lösning: Ja, se figur 3a.. Beräkna och rita ett centrerat glidande medelvärde med fem vikter. Gör en prognos för KPI år 015. Lösning: Vi beräknar och får då det glidande medelvärde som redovisas i tabell 5. För prognosen tar vi senaste medelvärdet, M 01 = 311,13. 3. Använd enkel exponentiell utjämning med utjämningskonstanten w = 0,4 och rita den utjämnade serien. Gör en prognos för KPI år 015. 7
År KPI E t T t 000 60,8 6,3 3,467 001 67,1 66,3 3,73 00 7,9 71, 4,84 003 78,1 76,5 4,815 004 79,1 80,5 4,377 005 80,4 83,1 3,493 006 84, 85,6 3,06 007 90,5 89,4 3,398 008 300,5 95,9 4,940 009 99,0 300,1 4,579 010 30,5 303,8 4,139 011 311,4 309,3 4,839 01 314, 314, 4,845 013 314,1 317,0 3,85 014 313,5 Tabell 4: Konsumentprisindex 000-014 (basår 1980) samt trend (T t ) och utjämnad serie (E t ) från Holt-Winters metod KPI 30 310 300 90 80 70 60 000 003 006 Year 009 01 KPI 30 310 300 90 80 70 60 000 004 008 Year 01 Variable KPI Medel Enk. exp. (a) Originaldata (b) Originaldata, glidande medel och enkel exp. utj. Figur 3: Konsumentprisindex Lösning: Vi beräknar och får den utjämnade serien som återfinns i tabell 5. Serien finns också i figur 3b. Prognosen ges även här av det 8
År 000 001 00 003 004 005 006 M t * * 71,6 75,5 78,946 8,478 86,956 E t 60,8 63,3 67,1 71,5 74,6 76,9 79,8 007 008 009 010 011 01 013 014 90,93 95,34 300,784 305,5 308,34 311,13 * * 84,1 90,7 94,0 97,4 303,0 307,5 310,1 311,5 Tabell 5: Glidande medelvärde och skattning från enkel exponentiell utjämning senaste värdet, vilket i det här fallet ger prognosen 311,5. 4. Med hjälp av MINITAB tillämpar vi Holt-Winters metod utan säsong och anpassar modellen med utjämningskonstanterna w = 0,4 och v = 0,5. Den utjämnade serien E t samt trenden T t finns i Tabell 4. Fyll i de tomma cellerna i tabellen och gör en prognos för KPI år 015. Lösning: Vi behöver räkna ut nivå- och trendskattningarna, för vilka vi använder formlerna E t = wy t + (1 w)(e t 1 + T t 1 ) T t = v(e t E t 1 ) + (1 v)t t 1 Med de angivna utjämningskonstanerna och värdena i tabellen får vi E 014 = 0,4y 014 + 0,6(E 013 + T 013 ) = 0,4 313,5 + 0,6(317,0 + 3,85) = 317,91 T 014 = 0,5(E 014 E 013 ) + 0,5T 013 = 0,5(317,91 317,0) + 0,5 3,85 =,381. Prognosen ett steg framåt ges av F 015 = E 014 + T 014 = 317,91 +,381 = 30,91. Modellens prognos för KPI år 015 är 30,91 indexenheter. 6 Uppgift 5 I Figur 4 visas ett index (med 010 som bas) för postorder- och näthandelns omsättning mellan 1991:1 och 014:4. 9
180 160 140 10 Index 100 80 60 40 0 Quarter Year 1991 1995 1999 003 007 011 Figur 4: Postorder- och näthandelns omsättningsutveckling (index, bas = 010) under 1991:1-014:4 (t = 1,,..., 96) 1. Diskutera om det i det här fallet är lämpligast att använda en additiv eller en multiplikativ modell. Lösning: Multiplikativ eftersom svängningarna ökar när nivån ökar.. Vi är nu intresserade av att göra prognoser för kvartal 1 och år 015. Till vårt förfogande har vi flera metoder: regression, glidande medelvärden och trippel exponentiell utjämning. Varför är enkel och dubbel exponentiell utjämning olämpliga att använda i den här situationen? Lösning: Enkel är lämplig när vi har konstant nivå, dubbel (även känd som Holt-Winters metod utan säsong) är när vi har trend. Vi har här även säsong. 3. Eftersom vi har kvartalsdata kan det kännas naturligt att använda ett centrerat glidande medelvärde med fem lika vikter. Varför är detta 10
olämpligt i detta fall? Lösning: Vi kommer i sådana fall inte bli av med säsongsvariationen, eftersom de yttre vikterna relaterar till samma period (t ex kvartal 1). Den perioden får då dubbelt så hög vikt jämfört med övriga perioder. 4. För att bestämma vilken av metoderna vi föredrar vill vi göra en prognosutvärdering. För att möjliggöra en sådan behöver vi först beräkna prognoserna. I Tabell 6 hittar du (delar av) resultaten för Holt-Winters metod. Gör de återstående beräkningar du anser nödvändiga för att räkna ut prognoserna. Lösning: Det som saknas är bara prognoserna, F n+k = (E n + kt n )S n P +k. För enkelhetens skull, låt n vara 014:4. Därmed är n + 1 samma sak som 015:1 och n + samma som 015:. Detta ger oss F 015:1 = F n+1 = (E n + 1 T n )S n 4+1 = (157,7 +,843) 0,978 = 157,01 F 015: = F n+ = (E n + T n )S n 4+ = (157,7 +,843) 0,95 = 155,54. I samma tabell hittar du också delar av resultaten efter att ett 5-vikters glidande medelvärde med olika vikter har använts. Metoden mynnar ut i den säsongsrensade serien y t /S + t. För denna serie har två modeller med linjär trend anpassats, men med skillnaden att i den ena har serien logaritmerats. Resultaten ser du i ekvation (1) och (). Resonera med hjälp av Figur 5 kring vilken som är lämpligast att använda och beräkna prognoserna för y t period 015:1 och 015:. Lösning: Eftersom trenden inte ser ut att vara linjär utan ökar exponentiell använder vi den logaritmerade modellen. För att få en tydligare överblick vad som har hänt och vad vi ska göra är det följande som har hänt/ska ske: (a) Serien har säsongsrensats med hjälp av stegvis rensning. 11
(b) Jämfört med formelsamlingens steg är vi nu på steg 7, då vi ska göra prognoser. (c) För att anpassa en trendlinje till serien behöver vi i det här fallet först logaritmera serien så att den exponentiella trenden blir linjär så att vi kan skatta den. Efter antilogaritmering har vi då den skattade trendekvationen ˆT t = ˆβ 0 ˆβt 1. (d) Vi använder då ekvationen för multiplikativ modell i steg 7 i formelsamlingen för att göra prognoserna. I ekvation (1) har vi resultaten för den logaritmerade modellen. Genom antilogaritmering av koefficienterna: ˆβ 0 = e 3,1 =,, ˆβ1 = e 0,019 = 1,0194 får vi fram trendekvationen: ˆT t = ˆβ 0 ˆβt 1 =, 1,0194 t. För våra prognoser är det huvudsakligen ovanstående trendekvation som styr, men vi justerar också prognoserna med hjälp av säsongskomponenter för att kompensera för säsongsvariationen. Vi får då (observera att t = 97 och t = 98 refererar till 015:1 och 015:): ŷ 97 = ˆT 97 S + 97 =, 1,0194 97 1,05 = 146,73 ŷ 98 = ˆT 98 S + 98 =, 1,0194 98 0,894 = 130,46 Slutligen så har vi en linjär regressionsmodell med säsongskomponenter. Den skattade regressionen hittar du i ekvation (3). Beräkna även här prognoserna för 015:1 och 015:. Lösning: Vi använder den givna modellen och får då omedelbart: ŷ 97 = 15,68 + 1,1774 97 7,53 = 1,36 ŷ 98 = 15,68 + 1,1774 98 14,0 = 117,05. 5. Utvärdera modellernas prognosförmåga enligt måtten medelabsolutfel och medelkvadratfel. Kommer du fram till samma inbördes ordning i prognosförmåga med båda måtten? 1
Trippel exp. utj., Glidande medel, (w = v = u = 0,4) (5-vikters, olika vikt) Tid t y t E t T t S t y t / ˆT t S t + y t /S t + 014:1 93 15,4 16,7,945 0,978 0,945 1,05 1,4 014: 94 17,9 13,5 3,13 0,95 0,94 0,894 144,0 014:3 95 18,3 131,4,00 0,971 0,984 130,4 014:4 96 165,0 157,7,843 1,181 1,097 150,4 015:1 97 136,7 1,05 015: 98 149,4 0,894 Tabell 6: Trippel exponentiell utjämning och glidande medelvärde 13
Lösning: Vi beräknar måtten och får då MAD stegvis = y 97 ŷ 97 + y 98 ŷ 98 136,7 146,73 + 149,4 130,46 = = 14,485 MAD regr = y 97 ŷ 97 + y 98 ŷ 98 136,7 1,36 + 149,4 117,05 = = 3,345 MAD HW = y 97 ŷ 97 + y 98 ŷ 98 136,7 157,01 + 149,4 155,54 = = 13,5 MSE stegvis = (y 97 ŷ 97 ) + (y 98 ŷ 98 ) = (136,7 146,73) + (149,4 130,46) MSE regr = (y 97 ŷ 97 ) + (y 98 ŷ 98 ) = (136,7 1,36) + (149,4 117,05) MSE HW = (y 97 ŷ 97 ) + (y 98 ŷ 98 ) = (136,7 157,01) + (149,4 155,54) = 9,66 = 66,079 = 5,098 Både MAD och MSE för prognoserna baserade på den stegvisa rensningen är lägre än för regressionsmodellen med säsongskomponenter, men lägst för båda måtten är måtten för prognoserna gjorda med Holt- Winters metod. Därmed tycks Holt-Winters metod vara bättre på prognoser för den här tidsserien (även om vi får slänga in en brasklapp på grund av att vår utvärdering enbart bygger på två stycken prognoser). 14
(y t /S + t ) = 7,7 + 1,177t (1) ln(y t /S + t ) = 3,1 + 0,019t () ŷ t = 15,68 + 1,1774t 7,53Q 1t 14,0Q t 10,15Q 3t (3) 160 Index (säsongsrensat) 140 10 100 80 60 40 0 Quarter Year 1991 1995 1999 003 007 011 Figur 5: Postorder- och näthandelns omsättningsutveckling (index, bas = 010) under 1991:1-014:4 (säsongsrensad) 15