VI notat 30-2005 Utgivningsår NNNN www.vti.se/publikationer idsserieanalys av dödsfall i trafiken Astrid Karlsson Kristian Willerö
Förord Detta notat är ett särtryck av en magisteruppsats i statistik skriven vid Linköpings universitet av Astrid Karlsson och Kristian Willerö. Uppsatsen är genomförd på uppdrag av VI och handledare vid universitetet har varit biträdande professor Stig Danielsson. Åsa Forsman Projektledare VI notat 30-2005
VI notat 30-2005
Magisteruppsats i statistik idsserieanalys av dödsfall i trafiken Astrid Karlsson & Kristian Willerö
Magisteruppsats i statistik idsserieanalys av dödsfall i trafiken Astrid Karlsson & Kristian Willerö ISRN: LiU-MA-D--05/03--SE
Abstract his essay has been assigned to us by the Swedish National Road and ransport Research Institute, VI, which perform research and development concerning infrastructure, traffic, and transports. We have been working for the research organization, SA, where a follow up of traffic accidents is an important issue. Our essay discusses the number of fatal traffic accidents from a time series perspective. he main purpose of the this essay has been to make use of one or several time series models in order to explain the correlation that is assumed to exist between the observed and estimated number of people killed in traffic accidents. We also want to develop time series models for predictions. In our analysis, we have used ARIMA and transfer function modeling. ARIMA models explain a future observation using previous values in the same series. he transfer function model is used when the explanatory variable has an impact on the response variable for values in several time periods and when the residuals are dependent. Our data showed a clear seasonal effect and was not stationary which is a requirement for ARIMA modeling. After an adjustment of our data, it was shown that all estimated ARIMA models based on monthly data resulted in moving average parameters. A future observation is explained in a linear composition from former errors. he transfer function model that was adjusted explains the response variable number of people killed with explanatory variable traffic kilometrage. It could not be proven that former values had an effect on the response variable. he residuals for the model could be explained by an ARIMA-process with a moving average parameter. he transfer function model is the model that we found most appropriate and we recommend it for future development. he estimated predictions from our models show no indications that Nollvisionen will be fulfilled without radical changes in traffic. he number of people killed will, according to the predictions, stay at the same level as the recent years.
Sammanfattning Uppsatsen har skrivits på uppdrag av Statens väg- och transportforskningsinstitut, VI, vilka bedriver forskning och utveckling som avser infrastruktur, trafik och transporter. Vi har arbetat för avdelningen rafik- och säkerhetsanalys, SA, där uppföljningen av dödsolyckor och antalet dödade i trafiken är ett viktigt inslag. Vår uppsats behandlar antalet dödade i vägtrafikolyckor ur ett tidsserieperspektiv. Huvudsyftet med uppsatsen har varit att utnyttja den korrelation som antas finnas mellan observationerna och ta fram en eller flera tidsseriemodeller som kan förklara antalet dödade i vägtrafikolyckor. Vi vill även utveckla tidsseriemodeller för prognostisering. I våra analyser har vi använt oss av ARIMA- och transferfunktionsmodellering. ARIMA-modeller förklarar en framtida observation med hjälp av tidigare värden i samma serie. ransferfunktionsmodeller används då en förklaringsvariabel har effekt på responsvariabeln för värden i flera tidpunkter och residualerna har ett beroende. Våra data uppvisade tydliga säsongseffekter och var inte stationära vilket är ett krav för ARIMA-modeller. Efter transformation av data så visade det sig att samtliga skattade ARIMA-modeller på månadsdata gav medelvärdesparametrar (MA-parametrar). Framtida observationer förklaras av en linjär sammansättning av tidigare brustermer. Den transferfunktionsmodell som anpassades förklarade responsvariabeln antal dödade med förklaringsvariabeln trafikarbete. Det gick inte att påvisa att tidigare värden hade någon effekt på responsvariabeln. Residualerna för modellen kunde förklaras av en ARIMA-process med en medelvärdesparameter. De skattade modellernas prognoser visar inga indikationer på att nollvisionens delmål 2007 på 270 dödade kommer att nås utan radikala förändringar i trafiken. Dödsantalet kommer enligt prognoserna att ligga på ungefär samma nivå som det gjort de senaste åren.
Förord Detta är en magisteruppsats i statistik skriven vid Linköpings universitet. Uppsatsen är genomförd på uppdrag av Statens väg- och transportforskningsinstitut, VI. Vi vill speciellt tacka vår handledare Stig Danielsson för god handledning under arbetets gång. Vi vill även rikta ett särskilt tack till Åsa Forsman, vår handledare på VI. ack också till Ulf Brüde, VI, för givande diskussioner och hjälp inom ämnet.
idsserieanalys av dödsfall i trafiken Innehållsförteckning 1 Inledning... 1 1.1 Bakgrund... 1 1.2 Problemdiskussion...2 1.3 Syfte och problemformulering... 2 1.4 Avgränsningar... 3 1.5 Begreppslista... 3 2 Metod... 5 2.1 Regressionsanalys... 5 2.2 idsserieanalys... 6 2.3 ransferfunktioner dynamisk regression... 9 2.4 Interventionsanalys... 11 3 Data... 13 3.1 Allmänt... 13 3.1.1 Helårsdata 1956-2002... 14 3.1.2 Månadsdata 1977-2004... 14 3.1.3 Månadsdata 1994-2004... 15 3.2 Förklaringsvariabler... 15 3.3 Dödsrisk... 16 4 Resultat... 19 4.1 Modeller för åren 1956-2002... 19 4.1.1 Modeller för antal dödade - regressionsanalys... 19 4.1.2 Modeller för dödsrisk regressionsanalys och ARIMA... 20 4.2 Modeller för åren 1977-2004... 21 4.2.1 Modell för antal dödade - ARIMA... 21 4.2.2 Modell för antal dödade - ARIMA med intervention... 23 4.2.3 Modell för dödsrisk -ARIMA... 23 4.3 Modeller för åren 1994-2004... 24 4.3.1 Modell för antal dödade - ARIMA... 24 4.3.2 Modell för antal dödade - ransferfunktion... 25 4.3.3 Modell för dödsrisk - ARIMA... 27 4.4 Prognoser... 27 4.4.1 Prognos med ARIMA-modell för dödsrisk 1956-2004... 27 4.4.2 Prognoser med ARIMA-modeller för antal dödade och dödsrisk 1977-2004... 30 4.4.3 Prognoser med modeller för tidsperioden 1994-2004... 33 4.4.4 Prognoser fram till år 2007... 36 5 Diskussion och slutsatser... 37 Referenslista... 41 Bilagor... 43
abellförteckning abell 1: Förväntat mönster i ACF och PACF vid enkla AR- och MA-modeller... 8 abell 2: Jämförelse mellan ARIMA-modeller med och utan intervention... 23 abell 3: Prognoser för 2005-2007 med ARIMA-modell för dödsrisk 1956-2004... 30 abell 4: MAPE-värden för modeller från tidsperioden 1977-2004, fullständig och förkortad serie... 30 abell 5: Prognoser för Jan 2004 - Mar 2005 med modeller från tidsperioden 1977-2004... 32 abell 6: MAPE- och MPE-värden för modeller från tidsperioden 1977-2004, de 15 prognostiserade månaderna... 32 abell 7: MAPE-värden för modeller från tidsperioden 1994-2004, fullständig och förkortad serie... 33 abell 8: Prognoser för Jan 2004-Mar 2005 med modeller från tidsperioden 1994-2004... 35 abell 9: MAPE- och MPE-värden för modeller från tidsperioden 1994-2004, de 15 prognostiserade månaderna... 35 abell 10: Prognoser för 2005-2007 samtliga modeller... 36 Diagramförteckning Diagram 1: Utveckling av antal dödade i vägtrafikolyckor 1956-2004, årsdata... 13 Diagram 2: Utveckling av antal dödade i vägtrafikolyckor 1977-2004, månadsdata... 15 Diagram 3: Utveckling av dödsrisken 1956-2002, årsdata... 17 Diagram 4: Utveckling av dödsrisken 1977-2004, månadsdata... 17 Diagram 5: Antal dödade 1977-2004, månadsdata, differentierat 1+12... 22 Diagram 6: Utveckling av antal dödade i vägtrafikolyckor 1994-2004, månadsdata... 25 Diagram 7: Prognos med ARIMA-modell för dödsrisk 1956-2004, årsdata... 27 Diagram 8: Prognos med ARIMA-modell för dödsrisk 1956-1997 förkortad serie, årsdata... 29 Diagram 9: Differens mellan prognoser med ARIMA-modell för antal dödade med fullstädig serie 1977-2004 och med förkortad serie 1977-2003, månadsdata... 31 Diagram 10: Differens mellan prognoser med transferfunktionsmodell med fullständig serie 1994-2004 och med förkortad serie 1994-2003, månadsdata... 34 Figurförteckning Figur 1: Samband mellan förklaringsvariabler, årsdata 1956-2002... 19 Utskriftsförteckning Utskrift 1: Regressionsmodell för dödsrisken 1956-2002... 20 Utskrift 2: ARIMA-modell för dödsrisken 1956-2002... 21 Utskrift 3: ARIMA-modell antal dödade 1977-2004... 22 Utskrift 4: ARIMA-modell för dödsrisk 1977-2004... 24 Utskrift 5: ARIMA-modell antal dödade 1994-2004... 25 Utskrift 6: Regressionsmodell för antal dödade 1994-2004... 26 Utskrift 7: ransferfunktionsmodell 1994-2004... 26 Utskrift 8: ARIMA-modell dödsrisk 1994-2004... 27 Bilageförteckning Bilaga 1 - Plot över antal dödade 1977-2004 uppdelat på månad... 43 Bilaga 2 - Källdata 1956-2004... 44 Bilaga 3 - Index, trafikarbete... 46 Bilaga 4 - Regressionsmodell 1 för antal dödade 1956-2002... 46 Bilaga 5 - Regressionsmodell 2 för antal dödade 1956-2002... 47
idsserieanalys av dödsfall i trafiken Bilaga 6 - Regressionsmodell för dödsrisk 1956-2002... 48 Bilaga 7 - ARIMA-modell för bruset från regressionsmodell för dödsrisk 1956-2002... 49 Bilaga 8 - ARIMA-modell för dödsrisk 1956-2002... 50 Bilaga 9 - ARIMA-modell för antal dödade 1977-2004... 52 Bilaga 10 - ARIMA-modell för antal dödade 1977-2004 med intervention... 54 Bilaga 11 - Jämförelse ARIMA-modeller 1977-2004 med och utan intervention... 55 Bilaga 12 - ARIMA-modell för dödsrisk 1977-2004... 56 Bilaga 13 - ACF och PACF för antal dödade 1994-2004... 58 Bilaga 14 - ACF och PACF för antal dödade differentierat på säsong 1994-2004... 59 Bilaga 15 - ARIMA-modell över antal dödade 1994-2004... 60 Bilaga 16 - Diagram över antal dödade och trafikarbete 1994-2004, månadsdata... 61 Bilaga 17 - Regressionsmodell för antal dödade 1994-2004... 61 Bilaga 18 - Autoregressionsmodell för antal dödade 1994-2004... 62 Bilaga 19 - ARIMA-modell för bruset från regressionsmodell för antal dödade 1994-2004.. 63 Bilaga 20 - ransferfunktionsmodell för antal dödade 1994-2004... 64 Bilaga 21 - ARIMA-modell för dödsrisk 1994-2004... 66 Bilaga 22 - Prognoser och prediktionsintervall... 68
idsserieanalys av dödsfall i trafiken 1 Inledning Inledningskapitlet beskriver arbetets bakgrund, syfte och problemformulering. Vidare innehåller kapitlet en begreppslista samt en kortare beskrivning av våra data och de avgränsningar som gjorts. 1.1 Bakgrund Statens väg- och transportforskningsinstitut, VI, är en myndighet som arbetar under näringsdepartementet på uppdrag av regeringen. De har till huvuduppgift att bedriva forskning och utveckling som avser infrastruktur, trafik och transporter. I deras arbete ingår även att analysera transportsektorns effekter på miljön och energiförbrukningen. Målet med forskningen är att kontinuerligt förbättra kunskapen om transportsektorn med syfte att bidra till att uppfylla de mål och delmål som regeringen har, däribland säker trafik, god miljö och nollvisionen. 1 Nollvisionens grundtanke är att ingen får dö eller skadas för livet i vägtrafiken. Den enda accepterade siffran för antalet trafikdödade och allvarligt skadade är noll. Riksdagen beslutade i oktober 1997 att nollvisionen skall ligga som grund för trafiksäkerhetsarbetet. Att trafikolyckor inte kan förhindras är förståeligt, människor gör misstag. Man kan däremot göra mycket för att förhindra att olyckor leder till allvarligare skador och dödsfall. Bland annat kan vägar och fordon utvecklas och bli säkrare. Som ett led i detta arbete byggs många fyrvägskorsningar om till cirkulationsplatser och vägar läggs om till mötesfria så kallade 2+1-vägar 2. Dessutom kan människors insikt om vikten av ett trafiksäkert beteende bli mycket större. Nollvisionens delmål för år 2000 på 400 dödsfall i trafiken överskreds då det totala dödstalet blev 564. År 2007 finns det ett nytt delmål, nämligen att dödstalet ej får överskrida 270 människor. 3 Ett viktigt inslag i trafiksäkerhetsarbetet är att följa upp antal dödsolyckor och antal dödade i trafiken. För att kunna analysera utvecklingen är statistiska modeller och metoder till stor hjälp. Modellerna används för att hitta orsaker som kan tänkas ligga bakom dödsolyckornas uppkomst och för att prognostisera. 1 www.vti.se 2 www.vv.se 3 Näringsdepartementet, proposition 1996/97:137 1
1.2 Problemdiskussion På både Vägverket och VI sker uppföljningen över antalet dödade i trafiken oftast månadsmässigt. De slår även ihop månadsdata från januari till december och tittar på årssummor för att kunna jämföra år från år. Vidare tittar de på så kallade rullande årssummor då de jämför tolvmånadersperioder. Som ett exempel på en rullande årssumma kan man jämföra januari till december med februari till januari. Ett annat sätt att jämföra tidsperioder som de använder sig av är att titta på ackumulerade data. De jämför då de ackumulerade månaderna för aktuellt år med motsvarande period tidigare år. För att få ut mer av uppföljningen bör man använda sig av en modell som kan förklara antalet dödsfall i trafiken på ett bra sätt och som även kan användas till prognoser. VI har tidigare tagit fram regressionsmodeller. Det man nu skulle vilja utnyttja är den korrelation som antas finnas mellan observationerna och ta fram en tidsseriemodell. Det har tagits fram modeller som med hjälp av förklaringsvariabler på ett logiskt sätt kan förklara antalet dödsfall i trafiken men korrelationssambanden mellan observationer har inte beaktats. Många variabler kan vara potentiella förklaringsvariabler och det gäller att hitta sådana som har effekt på dödstalet i trafiken och att sedan undersöka vilka som är relevanta. 1.3 Syfte och problemformulering Uppsatsens huvudsyfte är att försöka finna en eller flera tidsseriemodeller som kan förklara antalet dödsfall i trafiken. Vi kommer att arbeta med nedanstående problemformulering: Vi vill utveckla enkla tidsseriemodeller för att göra så bra prognoser som möjligt. Vi vill utveckla enkla tidsseriemodeller med förklaringsvariabler för att göra så bra prognoser som möjligt. Vi vill jämföra modellerna och sedan rekommendera någon/några av dem. Vi vill göra en utvärdering av saklogiska förklaringsvariabler. Vi vill utveckla saklogiskt motiverade tidsseriemodeller.
idsserieanalys av dödsfall i trafiken 1.4 Avgränsningar De data vi kommer att arbeta med är månadsdata över antal dödade i trafiken. Vi har data från januari 1956 till december 2004 (588 observationer). Då det hände väldigt mycket i trafiken fram till 1977, såsom ändringar i hastighetsbegränsningar och bilbälteslagen har vi valt att ej analysera observationer från 1956 fram till 1976 när vi studerar månadsdata. Vi får då kvar 336 observationer. 1.5 Begreppslista Vägtrafikolycka Död Dödsolycka Som vägtrafikolycka räknas händelse som inträffat på väg, vari det deltagit minst ett fordon i rörelse och som medfört person- eller egendomsskador. Som död i vägtrafikolycka räknas här de personer som omkommit till följd av olyckan och inom 30 dagar från olyckstillfället. Personer som drabbats av sjukdom som skulle ha lett till döden oavsett om trafikolyckan inträffat eller inte (i den mån detta kunnat fastställas) är ej medräknade. Som dödsolycka räknas de vägtrafikolyckor där minst en person omkommit enligt definitionen ovan. 4 4 Hela avsnittet baseras på Forsman et al (2005) 3
idsserieanalys av dödsfall i trafiken 2 Metod Metodkapitlet redogör för de metoder som vi använt för att göra våra analyser. De metoder som beskrivs är: regressionsanalys, tidsserieanalys, transferfunktioner och interventionsanalys. 2.1 Regressionsanalys När man vill studera samband mellan en responsvariabel y och en eller flera förklarande x-variabler kan man använda sig av regressionsanalys. Man beskriver eller förklarar observerad variation i y-data med hjälp av motsvarande x-data. Detta gör man genom att anpassa ett funktionssamband y = f (x). Sambandet är sällan perfekt men den variation som återstår antas ha orsakats av slumpmässiga avvikelser. Regressionsanalys används ofta då man vill se om, och i så fall hur mycket, den eller de olika förklarande x-variablerna inverkar på responsvariabeln y. Man kan även använda sig av regressionsanalys för prognoser av y. 5 I enkel linjär regression förutsätter man att responsvariabeln Y systematiskt beror av den förklarande variabeln X genom en linjär funktion α + βx, där α och β är okända konstanter. Man förutsätter även att Y inte kan observeras utan en slumpmässig avvikelse, e, från α + βx. Avvikelserna e antas vara oberoende, ha väntevärde 0 och 2 varians σ. Ofta antas e vara normalfördelad. Modellen kan då skrivas: Y = α + βx + e (1.1) i i i I multipel regression tillåter man att Y beror linjärt av flera förklarande variabler, X, 1 X, 2..., X k. Modellen för multipel linjär regression blir då: Y = α + β... β + i 1 X i1 + β 2 X i2 + + k X ik ei (1.2) Även här gäller samma antaganden för storheten e. 6 5 Multimediautgåva av Nationalencyklopedin 6 Kapitel 1 i Neter et al (1996) 5
2.2 idsserieanalys En tidsserie är en serie data {, t = 1,2... }, där tidsavståndet är detsamma mellan Y t successiva observationer. Karaktäristiskt för en tidsserie är att det finns ett stokastiskt beroende mellan olika Y t -värden. ARIMA (Auto-Regressive Integrated Moving-Average)-modeller är en metodik för att göra prognoser av tidsseriedata. En ARIMA-modell ska förklara en ny observation i tidpunkten t med hjälp av tidigare värden i samma serie. idigare värden fungerar som förklaringsvariabler till det aktuella tidsserievärdet. En förutsättning för att man ska kunna använda ovanstående metod är att tidsserien är stationär. Med stationär menas att serien håller en konstant nivå, konstant varians och att autokorrelationen är konstant. Om ursprungsserien inte skulle vara stationär kan man åtgärda detta genom olika transformationer. De vanligaste metoderna för att uppnå detta är att differentiera och/eller logaritmera. Att differentiera serien innebär att differenser mellan observationer på tidsavstånd k bildas. Man bildar för en ursprungsserie Yt den nya serien Z t = Y Y. Då differentiering är nödvändig är det t vanligt att differentiera en gång på tidsavstånd 1 och/eller en gång på gällande säsongsavstånd, då data uppvisar säsongseffekt. Man differentierar så långt man behöver för att få stationära data men ändå med försiktighet så att differentieringarna inte leder till att data tappar anknytning till verkligheten. Det kan uppkomma ny autokorrelation om för många differentieringar genomförs. t k En ARIMA-modell kan använda sig av autoregressiva parametrar (AR), löpande medelvärdes parametrar (MA), differensbildningar (I) eller en kombination av två eller tre av dessa (ARMA, ARIMA). ARIMA-modellen kan skrivas som ARIMA(p,d,q)(P,D,Q) S där p = Antal autoregressiva parametrar d = Antal differensbildningar på tidsavstånd 1 q = Antal löpande medelvärdesparametrar P = Antal autoregressiva säsongsparametrar D = Antal differensbildningar på säsongsavstånd Q = Antal löpande medelvärdessäsongsparametrar S = Antal perioder per säsong
idsserieanalys av dödsfall i trafiken En autoregressiv modell ska förklara en observation i tidpunkten t med en linjär sammansättning av tidigare observationer. Den generella modellen AR(p) skrivs: Y + t = c + φ 1 Yt 1 + φ2yt 2 +... + φ pyt p et (1.3) där c = konstantterm = j:te autoregressiva parametern, j=1,2,,p φ j e t = slumpterm vid tidpunkt t En löpande medelvärdesmodell ska förklara en observation i tidpunkten t med en linjär sammansättning av tidigare brustermer. Den generella modellen MA(q) skrivs: Y t = c + e θ... θ t 1 et 1 θ 2et 2 qet q (1.4) där c = konstantterm = j:te löpande medelvärdesparametern, j=1,2,,q θ j e i = slumpterm vid tidpunkt i Ett exempel på en modell med båda typerna av parametrar, en ARMA(1,1) skrivs: Y t = c + 1Yt 1 + et θ1et 1 φ (1.5) För att bestämma ARIMA-modellens utseende kan man studera tidsseriens autokorrelationsfunktion (ACF) och dess partiella autokorrelationsfunktion (PACF). ACF mäter hur stark korrelation det finns mellan Y t och Y t-k. PACF mäter korrelationen mellan Y t och Y t-k då de mellanliggande observationerna är betingade. När man väl skattat ACF och PACF kan man genom att jämföra med nedanstående tabell försöka identifiera vilken process som gäller för aktuella data. 7
Funktionernas utseende ger oss också antalet och vilka parametrar som ska användas. Finns det signifikant partiell autokorrelation så ska man välja antalet AR-parametrar lika med antalet signifikanta korrelationer i PACF, förutsatt att ACF avtar. Korrelationerna benämns ofta som spikar. Antalet MA-parametrar bestäms också av antalet signifikanta spikar men man tittar då istället på ACF, och detta gäller förutsatt att PACF avtar. Dessa generella mönster för stationära AR- och MA-modeller sammanfattas i tabell 1. I de fall där man har signifikanta spikar i såväl ACF som PACF kan det vara lämpligt att testa processer med parametrar av båda typer. Funktionerna ger sällan en helt klar bild av vilken modell som ska användas, därför är det lämpligt att prova flera olika modeller. abell 1: Förväntat mönster i ACF och PACF vid enkla AR- och MA-modeller Process ACF AR(p) Exponentiellt eller sinusartat avtagande MA(q) Spikar i tidsavstånd 1,...,q och därefter 0 PACF Spikar i tidsavstånd 1,...,p och därefter 0 Exponentiellt eller sinusartat avtagande För att testa vald modell kan man genom vanliga t-test se om parametrarna är signifikanta eller ej. I normalfallet utesluts ickesignifikanta parametrar ur modellen. Vid jämförelse mellan olika modeller kan man jämföra deras residualvarianser och man väljer då modellen med lägst varians, under förutsättningen att båda har samma antal parametrar. Ett annat mått för att bestämma vilken av flera modeller som ska väljas är Akaike s informationskriterium(aic). Värdet för AIC räknas ut enligt formel 1.6. AIC = 2 log L + 2m (1.6) där L = Likelihoodfunktionen m = p+q+p+q AIC straffar i normalfallet modeller med stort antal parametrar. Man ska välja modellen med lägst AIC-värde. En sista viktig kontroll är att göra en residualanalys för att säkerställa att modellen har okorrelerade residualer, så kallat vitt brus. 7 7 Hela avsnittet baseras på kapitel 7 och 8 i Makridakis et al (1998)
idsserieanalys av dödsfall i trafiken 2.3 ransferfunktioner dynamisk regression Den här typen av modell är användbar när förklaringsvariabeln har effekt på responsvariabeln för värden vid flera tidpunkter. Y t ska alltså inte förklaras bara av aktuella X t utan man måste titta på flera X bakåt i tiden (X t-1, X t-2,...). Den generella modellen skrivs: Y + N t = c + ν 0 X t + ν 1X t 1 +... + ν i X t i = ) 2 i c + ( ν 0B + ν 1B +... + ν i B X t + N t t = c + ν ( B) X t + N t (1.7) där c = konstantterm = impulsresponsvikten för X t-j ν j B j j = tidsavstånd j, B X t = X t j = förklaringsvariabeln vid tidpunkt t-j X t j N t = slumpterm som är en ARIMA-process ν (B) är den del av ekvationen som kallas transferfunktion. Den funktionen förklarar hur en förändring i X t -serien påverkar Y t. ransferfunktionens ordning styrs av hur stort i som finns i modellen. I vissa fall kan i vara mycket stor och detta leder till komplexa modeller med många parametrar och skattningar vilket man vill undvika och använder sig då istället av modellen: ω( B) Y t = c + X t b + N δ ( B) t (1.8) där ω (B) = ω δ (B) = 0 ω B 1... ω B s 1 1 1 δ B... δ r B 1 r s De två funktionerna ω (B) och δ (B) ersätter funktionen ν (B) från den tidigare ekvationen (1.7). Anledningen till omskrivningen är att hitta ett enklare sätt att skriva transferfunktionen. Omskrivningen reducerar antalet parametrar som behöver skattas och ger vanligen mer precisa prognoser än den generella modellen. 9
För att bestämma modellens utseende måste man bestämma värden på konstanterna b, r och s. Då N t följer ett ARIMA-mönster måste även parametrarna p, d och q bestämmas. Om data har säsongsmönster måste även detta identifieras och skattas. Man kan identifiera modellen med LF (Linear ransfer Function)-metoden som består av sex steg. 1. Anpassa en multipel linjär regressionsmodell på formen Y + N t = c + ν 0 X t + ν 1X t 1 +... + ν i X t i t med så många tidsförskjutna förklaringsvariabler som möjligt men ändå så att den med längst tidsförskjutning kan vara av betydelse. I detta steg är brustermen av mindre betydelse så man kan då välja vilken AR-modell man vill av lägre ordning. 2. Man ska nu göra en residualanalys för modellen från steg 1 för att kontrollera stationäritet. Om kraven på stationäritet är uppfyllda kan man gå vidare till nästa steg, om inte utför man lämpliga differentieringar. Dessa differentieringar utförs på både respons- och förklaringsvariabler. 3. Nu ska man bestämma värden på konstanterna b, r och s. Värdet på b är antalet tidsförskjutningar som behövs innan X har effekt på Y. Med andra ord är b lika med antalet vikter (ν ) i följd som inte är signifikant skilda från noll med början i ν 0. Värdet på s är antalet impulsresponsvikter innan de börjar avta. Värdet på r väljer man beroende på vilket mönster som koefficienterna uppvisar när de börjar avta. Konstanten r kan anta värdena 0, 1 och 2. 0 då man inte kan se något avtagande, utan responsvikterna bara är några spikar i början 1 då vikterna avtar exponentiellt 2 då det avtagande mönstret är svängande 4. Bestäm lämpligt utseende för avvikelserna i genom att anpassa en ARIMA enligt samma metod som för vanliga tidsserier. N t 5. Skatta om modellen med den nya ARIMA-modellen som felterm och transferfunktionen för X.
idsserieanalys av dödsfall i trafiken 6. Sist tittar man på residualerna för att se om de kan antas vara vitt brus. Skulle så inte vara fallet bör en ny modell anpassas. När man väl valt modell och samliga parametrar är skattade får vi följande prognosmodell: Y t ω( B) θ ( B) = a + X t b + et (1.9) δ ( B) φ( B) där e t är en slumpterm vid tidpunkt t. 8 2.4 Interventionsanalys En intervention är en händelse som sker vid en given och känd tidpunkt och som har inverkan på responsvariabeln. Man kan göra modeller för interventionen med hjälp av dynamisk regression. Interventionen kan ske på många olika sätt och den enklaste formen är en stegfunktion. En sådan resulterar i en plötslig och permanent antingen sänkning eller höjning hos responsvariabeln. Anta att interventionen sker i tidpunkt u. Man kan då använda sig av en dummyvariabel med egenskaperna: X t 0 om t < u X t = 1 om t u (1.10) Dummyvariabeln är då 0 innan brytpunkten och 1 vid och efter brytpunkten. Modellen blir då: Y = α + ωx + N (1.11) t t t Här är ω storleken på förändringen orsakad av interventionen och är en ARIMAmodell. N t Successiva effekter är en annan typ. Då ökar eller minskar serien under en lite längre tid tills serien stabiliseras på en ny nivå. Dummyvariabeln (1.10) används även här men modellen blir nu: 8 Hela avsnittet baseras på kapitel 7 och 8 i Makridakis et al (1998) 11
ω Y t = α + X t + N t (1.12) 1 δb ω Här är 1 δ förändringen. storleken på den slutliga förändringen och δ anger hastigheten av Pulsfunktion är en annan enkel intervention. Då sker det en tillfällig sänkning eller höjning i en viss tidpunkt men serien återgår genast till samma nivå som tidigare. Modellen (1.11) används men dummyvariabeln blir nu: 0 om t u X t = 1 om t = u (1.13) X t är då 0 överallt förutom i själva pulsen. En sista enkel intervention är återgående funktioner. Serien beter sig vid interventionspunkten som vid en pulsfunktion med en plötslig sänkning eller höjning. Skillnaden från pulsfunktion är att återgången till den gamla nivån är segare och det tar lite tid innan serien är tillbaka på sin gamla nivå. Dummyvariabeln ser ut som vid pulsfunktion (1.13) men modellen blir som vid successiva effekter (1.12). Här är ω storleken på den omedelbara förändringen och δ graden av tillbakagång till den ursprungliga nivån. 9 9 Hela avsnittet baseras på kapitel 7 och 8 i Makridakis et al (1998)
idsserieanalys av dödsfall i trafiken 3 Data Datakapitlet innehåller en presentation av det datamaterial som vi använt i våra analyser. Vi beskriver vår responsvariabel, antal dödade i vägtrafikolyckor och våra förklaringsvariabler, mängden trafikarbete, antal körkortsinnehavare, antal fordon i bruk och mängden bensinleveranser. Vidare presenterar vi måttet dödsrisk. 3.1 Allmänt Våra grunddata består av antal dödade i vägtrafikolyckor, enligt definition, per månad för tidsperioden 1956 till 2004. Siffrorna för 2004 är något osäkra eftersom det fortfarande pågår utredningar om vissa dödsfall skall klassas som vägtrafiksdödsfall eller ej. Dessa fall är få och korrigeringarna skulle ha sådan liten betydelse vid val av modell att vi kan bortse från det. För att illustrera utvecklingen har vi använt oss av antal dödade per år. Diagram 1 visar att antalet dödade i vägtrafikolyckor ökade stadigt under 50- och 60-talet. Under hela 70-talet och något år in på 80-talet minskade antalet dödade för att sedan i några år öka något. Från 1994 och fram tills idag har antalet dödade legat på en relativt konstant nivå. Diagram 1: Utveckling av antal dödade i vägtrafikolyckor 1956-2004, årsdata 1400 1200 1000 Antal dödade 800 600 400 200 0 1956 1958 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 År Antal dödade per år 13
Vi har valt att studera flera tidsperioder av dessa data såväl på årsbasis som på månadsbasis. De tidsperioder vi valt att analysera är: 1956-2002 helårsdata 1977-2004 månadsdata 1994-2004 månadsdata 3.1.1 Helårsdata 1956-2002 Vi har i vårt syfte sagt att vi vill utveckla enkla tidsseriemodeller med förklaringsvariabler och utföra en utvärdering av saklogiska förklaringsvariabler. De potentiella förklaringsvariabler vi tänkt använda oss av finns bara på årsbasis och för att få en tidsserie med tillräckligt många observationer har vi varit tvungna att titta långt tillbaka i tiden. För åren 2003 och 2004 saknas data för några av våra tilltänkta förklaringsvariabler. Den serie som ger oss flest observationer med förklaringsvariabler är åren 1956-2002. 3.1.2 Månadsdata 1977-2004 Nästa tidsperiod vi valt att analysera är tidsserien för 1977-2004 och den består av månadsdata. Data uppvisar ett säsongsmönster med 12 perioder per år, se bilaga 1. Anledningen till att vi valt denna tidsperiod är att det i slutet av 60-talet och början på 70-talet genomfördes flera trafikreformer som anses ha påverkat utvecklingen av antalet dödade. Dessa reformers effekt har i tidigare VI-rapporter bedömts fått fullt genomslag 1977. Därför har vi valt detta år som startår. Diagram 2 visar tidsperiodens utveckling.
idsserieanalys av dödsfall i trafiken Diagram 2: Utveckling av antal dödade i vägtrafikolyckor 1977-2004, månadsdata 120 100 80 Antal dödade 60 40 20 0 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 År Antal dödade per månad 3.1.3 Månadsdata 1994-2004 För att få aktuella och stabila data, vilket tidsserieanalys i viss mån kräver, har vi valt att analysera åren 1994-2004. Diagram 2 visar att månadsdata för tidsperioden 1994-2004 är mycket stabila med få extremvärden och som synes relativt konstant varians. 3.2 Förklaringsvariabler De förklaringsvariabler vi kommer att använda oss av i våra modeller för att förklara antalet dödsfall i trafiken är: mängden trafikarbete, antal körkortsinnehavare, antal fordon i bruk och mängden bensinleveranser, se bilaga 2. Där finns även siffror över antal dödsfall i vägtrafiken per år. rafikarbetet är ett mått på mängden trafik vid det statliga vägnätet mätt i antal fordonskilometer. Data över trafikarbete finns endast på årsbasis men med hjälp av ett index, se bilaga 3, som Vägverket använder sig av kunde vi få fram skattningar av trafikarbetet på månadsbasis. 10 10 Poul Holmgren, vägverket 15
Data över antal körkortsinnehavare har vi tagit från Bilismen i Sverige 11 och Vägverkets databas 12. Siffror över antal fordon i bruk är även de hämtade från Bilismen i Sverige 13. Antal fordon i bruk finns uppdelad på de olika fordonstyperna personbil, bussar, lastbilar, traktorer och motorcyklar. Data för bensinleveranser är hämtade från SCB:s databas 14. Antal körkortsinnehavare saknade värden för år 2004. För mängden bensinleveranser och antal fordon i bruk saknades data för både år 2003 och år 2004. idsperioden 1956-2002 blir alltså den längsta tidsperioden som kan studeras för förklaringsvariablerna. 3.3 Dödsrisk Då trafikarbetet ökat kraftigt under de tidsperioder vi studerar samtidigt som dödsantalet minskat har vi även valt att titta på dödsrisken. Dödsrisken är ett mått på risken att omkomma i en vägtrafikolycka. Vi har räknat ut dödsrisken genom att dividera antalet dödade med antalet miljoner trafikkilometer. Diagram 3 visar utvecklingen av dödsrisken för tidsperioden 1956-2002. Vi ser att dödsrisken har sjunkit betydligt fram till mitten av 90-talet för att sedan hamna på en något stabilare nivå. Diagram 4 visar utvecklingen för dödsrisken per månad för tidsperioden 1977-2004. Dödsrisken uppvisar liknande varians- och trendbeteende som våra grunddata över antal dödade per månad. 11 Bilismen i Sverige 1966, 1969, 1976, 1978, 1999 12 www.vv.se 13 Bilismen i Sverige 2003 14 www.scb.se
idsserieanalys av dödsfall i trafiken Diagram 3: Utveckling av dödsrisken 1956-2002, årsdata 0,08 0,07 Antal dödade per miljoner trafikkm 0,06 0,05 0,04 0,03 0,02 0,01 0 1956 1958 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 År Dödsrisk Diagram 4: Utveckling av dödsrisken 1977-2004, månadsdata 0,035 0,03 Antal dödade per miljoner trafikkm 0,025 0,02 0,015 0,01 0,005 0 1977 1982 1987 1992 1997 2002 År Dödsrisk 17
idsserieanalys av dödsfall i trafiken 4 Resultat Resultatkapitlet innehåller skattade modeller för de tre tidsperioderna 1956-2002, 1977-2004 och 1994-2004 med tillhörande analyser och prognoser. De modeller som används är regressionsmodeller, ARIMA-modeller och även en transferfunktionsmodell. 4.1 Modeller för åren 1956-2002 4.1.1 Modeller för antal dödade - regressionsanalys För den här tidsperioden studerade vi regressionssambandet mellan vår responsvariabel, antal dödade, och våra förklaringsvariabler, som presenterades i avsnitt 3.2. Regressionsmodellen, som visas i bilaga 4, visar på hög multikollinearitet mellan förklaringsvariablerna. Detta är inte på något sätt märkligt då det finns ett tydligt samband mellan förklaringsvariablerna vilket kan ses i figur 1. Sambandet mellan mängden bensinleveranser och de övriga förklaringsvariablerna uppvisar under de sista åren ett beteende som avviker från det annars tydliga linjära sambandet. Detta kan bero på att mängden bensinleveranser efter en tidigare uppåtgående trend nu stabiliserats. Vår valda regressionsmodell har dessvärre ologiska parameterskattningar. ill exempel skulle ett ökat trafikarbete leda till ett minskat antal dödade vilket inte verkar troligt. Figur 1: Samband mellan förklaringsvariabler, årsdata 1956-2002 rafikarbete Körkort Bensin Fordon 19
Den höga multikollineariteten tillsammans med ologiska koefficienter gjorde oss tveksamma till modellen trots en relativt hög förklaringsgrad och signifikanta parametrar. Den förklaringsvariabel som var mest logisk att behålla i modellen var trafikarbetet som är den variabel som beskriver trafikmängden. Enligt definitionen vi använder så krävs det ett fordon i rörelse som medfört person- eller egendomsskador för att det ska räknas som en vägtrafikolycka. Man inser då att trafikarbetet, som uttrycks i antal fordonskilometer, har ett direkt samband med antalet dödade i trafiken. Vi gjorde ytterligare regressionsförsök där trafikarbetet tillsammans med ytterligare variabler skulle förklara antalet dödade men dessvärre kvarstod multikollinearitetsproblemen i samtliga regressionsmodeller med fler variabler än en. Även då trafikarbetet ensamt skulle förklara antalet dödade så blev parametern ologisk, se bilaga 5. Precis som tidigare skulle ett ökat trafikarbete minska antalet dödade i trafiken. Detta beror på att responsvariabeln och förklaringsvariabeln uppvisade olika trender. Under denna tidsperiod har antalet dödade haft en negativ trend medan trafikarbetet haft en positiv. Att antalet dödade ändå har minskat trots en ökning av trafikarbetet beror troligen på att trafiksäkerhetsarbetet varit av större magnitud än den ökning som skett av trafikarbetet. 4.1.2 Modeller för dödsrisk regressionsanalys och ARIMA Som vi tidigare nämnt ökar trafikarbetet kraftigt under vår tidsperiod samtidigt som dödsantalet minskar. Vi valde då att istället titta på dödsrisken, antalet dödade dividerat med trafikarbetet. Vi dividerade även våra förklaringsvariabler med trafikarbetet och tog fram regressionsmodeller. Antal körkortsinnehavare dividerat med trafikarbete blev både svårtolkat, fick ologiska parametrar och blev osignifikant som förklaringsvariabel så vi bortsåg från den. Den bästa modellen fick vi då dödsrisken förklarades av mängden bensinleveranser per trafikkilometer, antal personbilar per trafikkilometer och antal lastbilar per trafikkilometer, se SASutskriften nedan. Den justerade förklaringsgraden blev 92,15 procent och fullständig utskrift finns i bilaga 6. Utskrift 1: Regressionsmodell för dödsrisken 1956-2002 Parameter- Standard- Variabel DF skattning fel t-värde Pr > t Skärning 1-0.20433 0.01764-11.58 <.0001 bensinleveranspertrafikarbete 1 0.00102 0.00009764 10.44 <.0001 personbilpertrafikarbete 1 0.00187 0.00036359 5.14 <.0001 lastbilpertrafikarbete 1 0.00514 0.00075589 6.81 <.0001
idsserieanalys av dödsfall i trafiken De tidigare problemen med multikollinearitet fanns inte längre kvar. Residualerna uppvisade ej vitt brus för modellen men vi fann ingen övertygande ARIMA-modell för bruset. Möjligen att en ARIMA (1,1,1), se bilaga 7, skulle vara tillräckligt bra. Det sista vi tog fram för denna tidsperiod var en tidsseriemodell för dödsrisken. Det behövdes två differentieringar för att få serien stationär och vi kunde sen i ACF och PACF, se bilaga 8, se indikationer på att en AR-modell vore lämplig. Det fanns en signifikant spik i PACF och ACF uppvisade ett exponentiellt avtagande. Vi valde en ARIMA (1,2,0), vars SAS-utskrift visas nedan. Fullständig utskrift finns även den i bilaga 8. Utskrift 2: ARIMA-modell för dödsrisken 1956-2002 Parameter Ungef. Skattning Standardfel t-värde Sh. > t Förskjutning AR1,1 0.68602 0.10978 6.25 <.0001 1 Autocorrelation Check of Residuals ill Sh. > förskj. Chi2 DF Chi2 ------------Autokorrelationer------------ 6 6.87 5 0.2304 0.128-0.222-0.102-0.050 0.140 0.191 12 12.22 11 0.3473 0.150 0.008 0.199-0.026-0.083 0.142 18 16.81 17 0.4671 0.101 0.140 0.099-0.100-0.034 0.117 24 18.02 23 0.7566 0.045 0.064 0.054 0.036 0.057 0.003 4.2 Modeller för åren 1977-2004 4.2.1 Modell för antal dödade - ARIMA Vi kunde ur diagram 2 se att serien för tidsperioden 1977-2004 inte var stationär. För att få serien stationär krävdes två differensbildningar, en på kort tidsavstånd och en på säsongsavstånd. Serien fick följande utseende: 21
Diagram 5: Antal dödade 1977-2004, månadsdata, differentierat 1+12 60 40 20 0-20 -40-60 -80 Som diagram 5 visar så har differentieringarna tagit bort den trend som originalserien uppvisade och variansen ser ut att vara mer konstant. För att undersöka hur strukturen såg ut för den differentierade serien så studerade vi ACF och PACF. Vi tolkade utseendet i PACF, se bilaga 9, som ett exponentiellt avtagande och det var en indikation på att modellen skulle anpassas med MA-parametrar. I ACF, även den i bilaga 9, kunde vi tydligt se två signifikanta spikar, en på kort tidsavstånd och en på säsongsavstånd, vilket gav oss två MA-parametrar på dessa avstånd. Efter att ha testat flera modeller kunde vi se att den mest lämpliga var en ARIMA(0,1,1)(0,1,1) 12. Båda parametrarna blev signifikanta och residualerna är oberoende enligt SAS-utskriften nedan. I bilaga 9 finns även den fullständiga utskriften. Utskrift 3: ARIMA-modell antal dödade 1977-2004 Parameter Skattning Standardfel t-värde Sh. > t Förskjutning MA1,1 0.80995 0.03305 24.51 <.0001 1 MA2,1 0.82038 0.03329 24.64 <.0001 12 Autocorrelation Check of Residuals
idsserieanalys av dödsfall i trafiken ill Sh. > förskj. Chi2 DF Chi2 ---------------Autokorrelationer-------------- 6 4.36 4 0.3590-0.016-0.030-0.080 0.069 0.028-0.013 12 9.77 10 0.4608 0.036 0.031 0.016-0.014 0.113 0.026 18 16.80 16 0.3987 0.111 0.014-0.036 0.063 0.048 0.024 24 17.91 22 0.7111-0.000-0.014-0.004 0.037-0.032-0.025 30 33.09 28 0.2326 0.028 0.143 0.079-0.016-0.003 0.122 36 35.47 34 0.3989 0.019-0.030 0.027-0.067 0.009-0.002 42 43.99 40 0.3063 0.068 0.096 0.073-0.054 0.020-0.025 48 50.76 46 0.2914 0.051 0.058-0.051 0.077-0.058-0.005 4.2.2 Modell för antal dödade - ARIMA med intervention Serien för 1977-2004 uppvisar först en jämn nivå med jämn varians fram till 1989, för att sedan avta successivt och hitta en ny stabil nivå från 1994 till 2004, se diagram 2. Således var det lämpligt att prova en modell med en intervention med successiva effekter. Vi anpassade då en modell enligt formel (1.12). Det finns flera händelser som skulle kunna motivera en intervention i tidpunkten 1990 15. - en om godkänd promillegräns sänks från 0,5 till 0,2 - Höjning av skatten på bensinen - 1989 var det en topp för såväl antal anmälda rattfylleribrott som misstänkt alkoholpåverkade förare - 1989 var det en topp för antalet bilförare i den yngsta och äldsta åldersgruppen abell 2 visar att det skiljer väldigt lite mellan de båda modellerna vad gäller den skattade variansen och AIC. För fullständig utskrift av interventionsmodellen se bilaga 10. Inte heller då vi studerade de båda modellernas prognosers följsamhet mot verkliga värden kunde vi säga att de skiljde sig markant åt, se bilaga 11. Dessa båda resultat visade att interventionen inte gav någon avsevärt bättre modell. abell 2: Jämförelse mellan ARIMA-modeller med och utan intervention Modell MSE AIC ARIMA 135.01 2503.05 ARIMA med intervention 136.46 2500.74 4.2.3 Modell för dödsrisk -ARIMA Vi har även för denna tidsperiod valt att göra en ARIMA-modell för dödsrisken. Originalserien för dödsrisken är långt från stationär. I diagram 4 kunde vi tydligt se att både dödsrisken och variansen sjunker med tiden. På grund av seriens utseende var det naturligt att transformera serien genom logaritmering. Detta gav oss dock inte någon 15 Basstatistik över olyckor och trafik samt bakgrundsvariabler, version 2005-04-14 23
förbättring utan differentiering var nödvändig. Det behövdes en differentiering på kortoch en på säsongsavstånd. ACF och PACF, se bilaga 12, visar i princip samma mönster som för data över enbart antal dödade och vår valda modell blev även här en ARIMA(0,1,1)(0,1,1) 12. Vi kunde ur SAS-utskriften nedan se att de båda parametrarna var signifikanta och att residualerna var okorrelerade. Fullständig utskrift finns även den i bilaga 12. Utskrift 4: ARIMA-modell för dödsrisk 1977-2004 Parameter Skattning Standardfel t-värde Sh. > t Förskjutning MA1,1 0.80531 0.03328 24.20 <.0001 1 MA2,1 0.75792 0.03736 20.29 <.0001 12 Autocorrelation Check of Residuals ill Sh. > förskj. Chi2 DF Chi2 ---------------Autokorrelationer-------------- 6 4.03 4 0.4021-0.003-0.020-0.071 0.066 0.017-0.047 12 7.21 10 0.7052 0.027 0.012 0.026-0.006 0.086 0.022 18 15.48 16 0.4896 0.135 0.028-0.044 0.044 0.036 0.009 24 18.16 22 0.6964-0.021-0.028 0.034 0.046 0.013-0.055 30 34.40 28 0.1879 0.061 0.150 0.066-0.039-0.033 0.113 36 35.42 34 0.4013-0.018-0.034 0.009-0.031 0.009 0.011 42 43.78 40 0.3143 0.045 0.102 0.053-0.074 0.014-0.042 48 50.45 46 0.3021 0.031 0.068-0.051 0.068-0.070 0.006 4.3 Modeller för åren 1994-2004 4.3.1 Modell för antal dödade - ARIMA I diagram 6 ges originalserien för månadsdata denna tidsperiod. Serien uppvisar ingen tydlig trend och variansen verkar konstant vilket stämmer väl överens med utseendet för en stationär serie. Men en analys av ACF och PACF, se bilaga 13, motsäger detta.
idsserieanalys av dödsfall i trafiken Diagram 6: Utveckling av antal dödade i vägtrafikolyckor 1994-2004, månadsdata 80 70 60 Antal dödade 50 40 30 20 10 0 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 År Antal dödade per månad Vi differentierade serien på säsongsavstånd och det visade sig vara tillräckligt. Efter en granskning av nya ACF och PACF, se bilaga 14, kunde vi konstatera att det skulle ge en modell med antingen en MA-, en AR-parameter eller en kombination av de båda parametrarna. Den slutliga modellen blev en ARIMA(0,0,0)(0,1,1) 12. SAS-utskriften nedan visar att MA-parametern var signifikant och att modellen har oberoende residualer. Fullständig utskrift finns i bilaga 15. Utskrift 5: ARIMA-modell antal dödade 1994-2004 Parameter Ungef. Skattning Standardfel t-värde Sh. > t Förskjutning MA1,1 0.63523 0.07708 8.24 <.0001 12 Autocorrelation Check of Residuals ill Sh. > förskj. Chi2 DF Chi2 ------------Autokorrelationer------------ 6 6.41 5 0.2684 0.086 0.014-0.164-0.054-0.000 0.117 12 13.06 11 0.2893-0.029-0.002-0.007 0.091 0.198-0.032 18 19.51 17 0.3003 0.104-0.052-0.089-0.002 0.011 0.155 24 23.22 23 0.4477-0.033-0.012-0.089 0.072-0.085 0.058 4.3.2 Modell för antal dödade - ransferfunktion De data vi har för den här tidsperioden är antal dödade och trafikarbete på månadsbasis. Bilaga 16 visar att de två serierna har ett likartat mönster. Vi skattade en 25
regressionsmodell med antal dödade som responsvariabel och trafikarbete som förklaringsvariabel. Denna gång blev inte parameterskattningen ologisk utan påvisade att ett ökat trafikarbete leder till ett högre antal dödade, se SAS-utskriften nedan eller i den fullständiga utskriften i bilaga 17. Med hjälp av transferfunktioner undersökte vi om det fanns någon dynamisk påverkan på antalet dödade av variabeln trafikarbete men detta kunde inte påvisas. Utskrift 6: Regressionsmodell för antal dödade 1994-2004 Parameter- Standard- Variabel DF skattning fel t-värde Pr > t Skärning 1 12.05241 5.50551 2.19 0.0304 trafikarbete 1 0.00546 0.00093490 5.84 <.0001 Regressionsmodellen ovan hade korrelerade residualer, vilket kan ses i bilaga 18, och vi gick vidare för att undersöka bruset och anpassa en lämplig tidsseriemodell. Brusserien behövde differentieras på säsongsavstånd för att bli stationär och vid analys av ACF och PACF, se bilaga 19, sågs indikationer på att en MA-modell på säsongsavstånd vore lämplig. Insättning av ARIMA-modellen för bruset i transerfunktionen rensade korrelationen men gav ej signifikanta parametrar. Vi studerade impulsresponsvikternas beteende men det var mycket svårt att se något tydligt mönster. Vi provade ett stort antal olika modeller med olika värden på konstanterna b, r och s för att trots problemen kunna hitta en lämplig modell. Vi jämförde modellernas AIC-värden, tittade om modellen fick signifikanta parametrar och om vi fick vitt brus. Den bästa modellen fick vi då s=1, r=2 och b=0 vilken visas i utskrift 7. Fullständig utskrift finns i bilaga 20. Utskrift 7: ransferfunktionsmodell 1994-2004 Parameter Ungef. Skattning Standardfel t-värde Sh. > t Förskjutning MA1,1 0.64513 0.07560 8.53 <.0001 12 NUM1 0.04222 0.02110 2.00 0.0478 0 NUM1,1 0.04268 0.02131 2.00 0.0476 1 DEN1,1 0.87987 0.11150 7.89 <.0001 2 Autocorrelation Check of Residuals ill Sh. > förskj. Chi2 DF Chi2 ------------Autokorrelationer------------ 6 8.01 5 0.1558 0.077-0.028-0.191-0.089 0.025 0.114 12 14.19 11 0.2228 0.007-0.043-0.009 0.051 0.201-0.044 18 23.84 17 0.1238 0.058-0.091-0.151-0.031 0.004 0.184 24 29.37 23 0.1682-0.023-0.020-0.125 0.065-0.119 0.051
idsserieanalys av dödsfall i trafiken 4.3.3 Modell för dödsrisk - ARIMA Även för denna tidsperiod undersökte vi om en tidsseriemodell kunde anpassas för dödsrisken. Grundserien över dödsrisken var ej stationär utan det krävdes en differentiering på säsongsavstånd. Den differentierade seriens ACF och PACF, som visas i bilaga 21, uppvisar indikationer att det även här skulle vara aktuellt med en MA-modell på säsongsavstånd. Den modell som vi fann lämpligast var en ARIMA (0,0,0)(0,1,1) 12 vilken visas i utskrift 8 och den fullständiga utskriften finns även den i bilaga 21. Utskrift 8: ARIMA-modell dödsrisk 1994-2004 Parameter Ungef. Skattning Standardfel t-värde Sh. > t Förskjutning MA1,1 0.54717 0.08324 6.57 <.0001 12 Autocorrelation Check of Residuals ill Sh. > förskj. Chi2 DF Chi2 ------------Autokorrelationer------------ 6 7.95 5 0.1590 0.169 0.020-0.120-0.027 0.064 0.123 12 17.95 11 0.0828 0.009 0.032 0.032 0.144 0.224-0.040 18 24.07 17 0.1177 0.086-0.059-0.037 0.045 0.042 0.165 24 26.19 23 0.2920 0.001 0.026-0.037 0.094-0.030 0.049 4.4 Prognoser 4.4.1 Prognos med ARIMA-modell för dödsrisk 1956-2004 idigare i resultatkapitlet har vi presenterat en modell för dödsrisken för tidsperioden 1956-2002. Anledningen till detta tidsintervall var att vi tidigare använde flera förklaringsvariabler och att det saknades data för åren 2003 och 2004 för vissa variabler. I dödsriskmodellen använder vi oss enbart av antalet dödade och trafikarbete vilka vi har data för även för åren 2003 och 2004. Vi anpassade nu en ARIMA-modell för tidsperioden 1956-2004 så att alla prognoser skulle få samma startpunkt. Vi fick samma modell som tidigare en ARIMA (1,2,0). För att utvärdera vår valda modell för dödsrisk så har vi predikterat värden så långt tillbaka som det var möjligt. Anledningen till detta var att vi ville se hur pass väl prediktionerna överensstämde med de verkliga värdena. Om våra prediktioner låg nära så skulle detta innebära att vår valda modell hade stor träffsäkerhet. Diagram 7 visar hur vår modell anpassade sig till de verkliga värdena. Diagram 7: Prognos med ARIMA-modell för dödsrisk 1956-2004, årsdata 27
1600 1400 1200 Antal dödade 1000 800 600 400 200 0 1958 1964 1970 1976 1982 1988 1994 2000 År Verkligt värde antal dödade Prognos antal dödade Vi studerade också om en förkortad serie kunde anpassas till samma modell. Vi tog bort de sista 7 observationerna från originalserien och studerade den nybildade serien. Den förkortade serien visade likadant beteende som den fullständiga och samma ARIMA-modell kunde anpassas. Nästa steg blev att se hur nära den förkortade seriens prognoser låg i jämförelse med de verkliga värdena. Om även dessa anpassar sig väl till de verkliga värdena så tyder det på att modellen har hög tillförlitlighet. Diagram 8 visar resultatet för den förkortade serien.