RAPPORT. Fel i järnvägssystemet och dess effekter på förseningar

Relevanta dokument
Britt-Marie Olsson Mats Gummesson. Från orsakskodning till handling

Orsakskoder för kvalitetsavgifter

Järnvägsnätsbeskrivning 2014, bilaga 6.2 Orsakskoder för kvalitetsavgifter Utgåva Bilaga 6.2 Orsakskoder för kvalitetsavgifter

Samlad effektbedömning av förslag till nationell plan och länsplaner för transportsystemet

Förändrade tågförseningar ny höghastighetsjärnväg enligt US2X

Utvecklad modell för effektsamband mellan fel i infrastruktur och tågförseningar Analys & Strategi

Effektsamband för transportsystemet. Fyrstegsprincipen Version Steg 2. Drift och underhåll. Kapitel 6 Drift och underhåll av järnväg

Förbättrad analys av förseningsdata med hjälp av RailSys

Stokastiska processer med diskret tid

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Störningar i tågtrafiken /ver2

Lektionsanteckningar 11-12: Normalfördelningen

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

AVIHGT- Avvikande hastighet godståg

RAPPORT. Olika nivåer på resandet. Genomgång av de resandematriser som används av Järnvägsgruppen KTH och de som används i den nationella planeringen

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Trafikverkets modell för beräkning av linjekapacitet

Norrtågs kvalitetsredovisning År 2015 Kvartal 4

MVE051/MSG Föreläsning 7

Rapport punktlighet. Nyckeltal för pendeltågens utveckling av punktlighet. Huvudrapport med utfall för maj 2019 TN

Sortimentslista över tekniskt godkänt material för väg- och järnvägsinfrastrukturen. Senast uppdaterad: Version 6.1

Bilaga 6 till rapport 1 (5)

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Handbok JTF. 6. Fara och Olycka

import totalt, mkr index 85,23 100,00 107,36 103,76

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Trafikbestämmelser för järnväg. Modul 6 Fara och Olycka

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Optimering och simulering: Hur fungerar det och vad är skillnaden?

MVE051/MSG Föreläsning 14

Norrtågs kvalitetsredovisning År 2015 Kvartal 1

Effektsamband för transportsystemet

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Härledning av Black-Littermans formel mha allmänna linjära modellen

K2020 Tågtrafik och järnvägsinvesteringar

Trafikbestämmelser för järnväg. Modul 6 Fara och Olycka

Trafikbestämmelser för järnväg. Modul 6 Fara och Olycka

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Dekomponering av löneskillnader

Väg 44, förbifart Lidköping, delen Lidköping-Källby

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Simuleringsbaserad optimering av tidtabeller (KAJT-projekt: FlexÅter) Johan Högdahl

Föreläsning 4. Kapitel 5, sid Stickprovsteori

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Sortimentslista över tekniskt godkänt material. Senast uppdaterad: Version 4.9 Ärendenummer: 2012/31535

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Effektredovisning för BVSt_010 Strängnäs-Härad, dubbelspår

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Höftledsdysplasi hos dansk-svensk gårdshund

4 Diskret stokastisk variabel

Välkommen

Innehåll. Standardavvikelse... 3 Betarisk... 3 Value at Risk... 4 Risknivån i strukturerade produkter... 4

Norrtågs kvalitetsredovisning År 2017 Kvartal 1

Kapacitet för godståg på Västra och Södra stambanan

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

1 Mätdata och statistik

ÖVNINGSUPPGIFTER KAPITEL 9

Norrtågs kvalitetsredovisning År 2017 Kvartal 4

Enkät om rapportering av förseningar

FÖRELÄSNING 8:

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Norrtågs kvalitetsredovisning År 2014 Kvartal 3

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Statistiska metoder för säkerhetsanalys

Matematisk statistik KTH. Formelsamling i matematisk statistik

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET FYSIKUM

Några extra övningsuppgifter i Statistisk teori

NY LOGISTIKKNUTPUNKT I TRONDHEIMSREGIONEN Kapacitetsanalys Trondheim-Stören. Rapport Upprättad av: Göran Hörnell

Introduktion till statistik för statsvetare

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

SCENARIOANALYS FÖR JÄRNVÄGEN I SKÅNE. Sammanfattning av SWECOs rapport på uppdrag av Region Skåne

Introduktion Funktioner Ansökan om behörighet och tillgång till Här&Nu Kontaktuppgifter Att använda Här&Nu...

SF1901 Sannolikhetsteori och statistik I

F3 Introduktion Stickprov

Trafikanalys Kompletterande arbeten för ny järnväg Göteborg - Borås

Trångsektorsplan Göteborg - tågplan T11

Finansiell statistik

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Tillämpad statistik (A5), HT15 Föreläsning 24: Tidsserieanalys III

Statistik 1 för biologer, logopeder och psykologer

Transkript:

RAPPORT Fel i järnvägssystemet och dess effekter på förseningar Mars 2012

Konsulter inom samhällsutveckling WSP Analys & Strategi är en konsultverksamhet inom samhällsutveckling. Vi arbetar på uppdrag av myndigheter, företag och organisationer för att bidra till ett samhälle anpassat för samtiden såväl som framtiden. Vi förstår de utmaningar som våra uppdragsgivare ställs inför, och bistår med kunskap som hjälper dem hantera det komplexa förhållandet mellan människor, natur och byggd miljö. Titel: Fel i järnvägssystemet och dess effekter på förseningar WSP Sverige AB Besöksadress: Arenavägen 7 121 88 Stockholm-Globen 2 Analys & Strategi Tel: 08-688 60 00, Fax: 08-688 69 99 Email: info@wspgroup.se Org nr: 556057-4880

Innehåll 1 INLEDNING... 5 2 DEFINITIONER OCH AVGRÄNSNINGAR... 7 2.1 Definition av ankomstförsening... 7 2.2 Primära och sekundära förseningar... 7 2.3 Infrastrukturfel... 8 2.4 Avgränsningar i studien... 8 3 METOD...11 3.1 Data och segmenteringar...11 3.2 Övergripande modellbeskrivning...14 3.3 Princip för urval av estimeringsdata...16 3.4 Referenser...17 4 ESTIMERADE EFFEKTSAMBAND...19 4.1 Omfattningen av tågförflyttningar...19 4.2 Ingående variabler i estimeringen...20 4.3 Estimerade effektsamband...21 5 HUR EFFEKTSAMBANDEN KAN TILLÄMPAS...29 5.1 Utgångspunkter för tillämpning...29 5.2 Uppräkning av prognosen till populationsnivå...31 5.3 Praktisk tillämpning...32 6 SLUTSATSER OCH VIDARE UTVECKLING...33 BILAGA 1: UTESLUTNA OBSERVATIONER I ESTIMATIONSDATA...35 BILAGA 2: INFRASTRUKTURRELATERADE FEL...37 Analys & Strategi

WSP Analys & Strategi Arenavägen 7 121 88 Stockholm-Globen Telefon 08-688 60 00 Fax 08-688 69 16 www.wspgroup.se

1 Inledning Järnvägssystemet är ett komplext system och fel som uppstår i systemet kan ge upphov till tågförseningar som i sin tur påverkar resenärerna. Kunskapen kring dessa samband är dock i dagsläget relativt lågt. Syftet med projektet är att flytta kunskapsläget framåt genom att estimera samband mellan infrastrukturrelaterade fel som uppstår i systemet och uppkomna förseningar i tågtrafiken. Den alternativa lösning som finns tillgänglig idag är i princip att på lågnivå, t ex med hjälp av Railsys, simulera hur fel i systemet påverkar förseningarna i tågtrafiken. I dagsläget är detta en möjlighet enbart för vissa enstaka sträckor i järnvägssystemet. Samtidigt gäller att behovet av effektsamband mellan fel och förseningar snarare handlar om att få generella samband som kan tillämpas på stora delar av järnvägssystemet, t ex per så kallad bantyp. I denna studie har i stället en generell modell som täcker hela järnvägssystemet använts. De enskilda tågen beskrivs individuellt i modellen men betydligt mindre detaljerat än i en simuleringsmodell. Detaljeringsgraden i att förutsäga effekterna för enskilda tåg blir mindre än i simuleringsmodell, men möjligheterna att säga något om hela eller stora delar av systemet ökar. Den valda modellen estimerar restidens sannolikhetsfördelning för enskilda tågnummer och delsträckor. I transportmodellsammanhang brukar denna nivå kallas för mesonivå, medan en modell som Railsys simulerar systemet på mikronivå. Den använda modellen är en så kallad stokastisk diffusionsmodell. Det är en flexibel modell som har stora anpassningsmöjligheter för att tillämpas inom järnvägsområdet. I detta projekt har huvudsyftet varit att ta reda på felens effekter avseende förseningar uppdelat per bantyp, utan att ta hänsyn till kapacitetsutnyttjande och tidtabelläggning. Mer om detta finna att läsa i avsnittet om avgränsningar. Uppdraget som finansierats av Trafikverket har genomförts av Sida Jiang, Christer Persson och Pia Sundbergh (uppdragsledare). Analys & Strategi

6 Analys & Strategi

2 Definitioner och avgränsningar I följande kapitel ges en beskrivning av hur förseningar definierats i studien samt vilka avgränsningar som har genomförts. 2.1 Definition av ankomstförsening Studien är avgränsad till att studera ankomstförseningar, se vidare avsnitt 2.4 nedan. Ankomstförseningen är förseningen vid ankomststationen avräknat eventuell avgångsförsening, alltså: ankomstförsening = ankomsttid planerad ankomsttid avgångsförsening Figur 2.1 nedan visar detta i grafisk form för ett tänkt tåg som går en delsträcka mellan station 1 och 2. Utan någon avgångsförsening är ankomstförseningen detsamma som den totala förseningen. Men när tåget även är försenat från avgångsstationen så blir ankomstförseningen den extra förseningen som eventuellt har tillkommit när tåget är framme vid ankomststationen. På detta sätt blir ankomstförseningen en relativ försening. Station 2 total försening ankomstförsening Station 1 Planerad avgångstid avgångstid Planerad ankomsttid ankomsttid Tid (t) avgångsförsening Ny planerad ankomsttid Figur 2.1: Samband mellan total försening och avgångs- och ankomstförseningar, samt planerad och faktisk avgångs- och ankomsttid. 2.2 Primära och sekundära förseningar Tågförseningar brukar delas in i primära och sekundära förseningar. Primära förseningar karaktäriseras av att de kan kopplas till någon felorsak, till exempel infrastruktur- eller tågfel. I denna studie ligger fokus på förseningar som orsakas av fel på infrastrukturen. Sekundära förseningar uppstår på grund av att tågen påverkar varandra. Den totala förseningen för, till exempel ett infrastrukturfel, blir med denna terminologi summan av de primära förseningarna för det eller de tåg som drabbades direkt av felet och de sekundära förseningarna för Analys & Strategi

både de tåg som fick de primära förseningarna och övriga tåg som i sin tur påverkades. 2.3 Infrastrukturfel Som datakälla för de infrastrukturfel som studeras används det så kallade Ofeliaregistret. Ofelia förvaltas av Trafikverket och trafikledarna registrerar fel som har rapporterats till dem. Felen som registreras i Ofelia är inriktade på fel som har med järnvägssystemet att göra och som kan påverka tågen. Alla fel som registreras är dock inte direkt knutna till infrastrukturen. Exempelvis så hör kategorin Hjulskada i symptomfältet i Ofelia till tågfel och Obehöriga i spåret har heller inte direkt med infrastrukturen att göra. Därför har i studien införts en skillnad mellan så kallade infrastrukturrelaterade fel och fel som ej är relaterade till infrastrukturen. I Bilaga 2 visas en tabell som utgör definition för kategoriseringen av fel i Ofelia. Definitionen av infrastrukturrelaterade fel enligt Bilaga 2 bygger på information från det så kallade symptomfältet i Ofelia. Detta är information om felets orsak som finns tillgänglig när felet rapporteras, ofta korrigeras orsaken till felet i ett senare skede när felet har inspekterats eller åtgärdats. Sådan mer korrekt och fullständig information om felet finns också tillgänglig. Dock har vi av metodskäl valt att inte använda den informationen. Anledningen är att den (mer korrekta) informationen, sett utifrån ett enskilt tåg som påverkas av felet, är information från framtiden om oftast inte fanns tillgänglig när tåget passerade platsen för felet. Det finns åtskilliga tillämpningar av den metod som används här där det går att visa att motsvarande problem leder till grova felskattningar av effekter 1. 2.4 Avgränsningar i studien För studien har följande avgränsningar använts avseende typ av förseningar och fel: 1. Med fel (i järnvägssystemet) menas fel som registreras i Ofelia. I studien antas det vara en fullständig rapportering av infrastrukturfel men att övriga typer av fel, till exempel tågfel, kan vara underrapporterade. Vid tillämpning av estimerade samband bör därför hänsyn tas till kate- 1 Detta gäller inte enbart specifikt för den metod som använts i studien. Det är en allmän egenskap hos stokastiska processer där förfluten tid, nutid och framtid definieras explicit och utgör en integrerad del av modellen. Det går heller inte att undkomma problemet genom att använda en modell som inte tar hänsyn till tid explicit. Det vill säga, vanlig linjär regression är inte räddningen i detta fall. 8 Analys & Strategi

goriseringen av felen i infrastrukturrelaterade och ej infrastrukturrelaterade fel beskriven ovan. 2. Estimerade och presenterade samband är enbart giltiga för primärförseningar till följd infrastrukturfel. Avgränsningen är en följd av att huvudfokus i projektet har legat på att ta fram effektsamband för fel utan att ta hänsyn till kapacitetsutnyttjande och tidtabelläggning. För att även kunna ta med sekundärförseningarna i sambanden krävs att hänsyn tas till tågens ömsesidiga påverkan på varandra, vilket inte är möjligt utifrån specifikationen av den modell som användes för att estimera samband i denna studie (detta är dock möjligt i vidare utvecklingsprojekt). 3. Presenterade samband gäller enbart för ankomstförseningar. 4. Estimerade samband avser enbart fel som har rapporterats till tågets ankomststation. Denna typ av fel utgör 87 procent av felen som har registrerats i Ofelia. Övriga fel, alltså de som har registrerats i Ofelia att befinna sig någonstans på sträckan mellan avgångs- och ankomststationen ses definitionsmässigt i denna studie som att de orsakar sekundärförseningar. 5. Estimerade samband avser enbart persontrafik. Ovanstående fem avgränsningar är mycket betydelsefulla för att tolka presenterade samband. Avgränsningarna innebär att estimerade samband inte täcker samtliga samband för förseningar som uppstår i tågtrafiken till följd av infrastrukturfel, men avser en tydligt avgränsad del och det är möjligt att identifiera vilka samband som återstår att studera. Det är även värt att nämna att avgränsningarna inte beror på begränsningar i den modell som använts för att estimera sambanden mellan infrastrukturfel och förseningar utan modellen kan som nämnts i punkt nummer tre ovan med en annan modellspecifikation tillämpas på flera sätt. Ytterligare en avgränsning är att ursprungligen, i en tidig planeringsfas av studien, gjordes avgränsningen att estimerade samband skulle bli kopplade till järnvägssystemet så som det såg ut för det år de estimerades för (år 2009). Tilllämpningen av effektsambanden avsåg då att vara giltig enbart så länge som systemet kunde sägas vara i stort sett samma som detta år. För att flytta sambanden till ett nytt nuläge skulle det då ha krävts en ny estimering av sambanden. De erhållna sambanden är dock betydligt mer generiska än vad som ursprungligen var syftet. Detta, tillsammans med de fem avgränsningarna ovan, gör att de estimerade sambanden troligen är giltiga för något större förändringar i järnvägssystemet. Behovet av förnyade estimeringar av sambanden är därmed mindre. Analys & Strategi

10 Analys & Strategi

3 Metod 3.1 Data och segmenteringar Samtliga data som sambanden är estimerade på är från år 2009. Nedan ges en översiktlig genomgång av de använda datakällorna samt de så kallade bantyperna som samband har segmenterats efter. Tågförflyttningarna hämtas från Banstat Data om tågförflyttningar har tagits fram genom ett uttag ur Trafikverkets databas Banstat. Uttaget innehöll samtliga 27 miljoner tågförflyttningar inom Sverige för år 2009. En post i data består av ankomst- och avgångstider (faktiska och planerade, enligt tidtabell) för en station för ett tågnummer ett givet datum under 2009. Ett tågnummer är i princip detsamma som en kolumn i en traditionell tågtidtabell, alltså en periodiskt återkommande tågavgång (vid tillfälliga tågnummer är den inte återkommande). I fortsättningen används ofta ordet tåg som en synonym för tågnummer. Antalet stationer i data täcker samtliga platser för resandeutbyte, alltså där passagerare kan stiga av och/eller på tåget men även ett antal mellanliggande platser. Totalt definierar stationerna i uttaget ett nätverk med 653 unika trafikerade järnvägslänkar, dessa kallas i fortsättning antingen för sträckor eller delsträckor. I data som användes för att estimera effektsambanden mellan fel och ankomstförsening strukturerades data om så att en post bestod av ett tågnummers avgång från startstationen för en delsträcka och ankomsten till delsträckans slutstation ett visst datum. Även de data som används för att tillämpa effektsamband har denna form. I fortsättning av rapporten kallas posterna i dessa data för observationer. För att kunna estimera sambanden med hjälp av datauttaget från Banstat krävdes komplettering med vissa uppgifter från andra datakällor. Dessa var: fel som rapporterades i Ofelia och som matchar tågförflyttningarna uppgifter om bantyp från BIS (Trafikverkets databas för järnvägsinfrastrukturen) uppgifter om tågen, så som tågtyp, från tågnummerförteckningen i Banstat Ofelia utgör definition av fel och deras datakälla Trafikverkets databas Ofelia där fel i järnvägssystemet rapporteras in av trafikledarna beskrevs i avsnitt 2.3 Infrastrukturfel. Som nämndes i avsnittet om avgränsningar i studien så antas Ofelia, i princip, innehålla samtliga infrastruktur- Analys & Strategi

fel men att det är mer osäkert om andra typer av fel blir korrekt rapporterade 2. Därför bör inga redovisade effektsamband för hur fel påverkar tågförseningar användas för att dra slutsatser om till exempel infrastrukturfel kontra tågfel. För att underlätta vid tillämpningen av resultaten finns en indelning av felen i Ofelia i de två kategorierna Infrastrukturrelaterade fel och Ej infrastrukturrelaterade fel. Se Bilaga 2 för en tabell som ger definitionen av indelningen. Bantyp I Trafikverkets nationella planering indelas järnvägsnätet i fem så kallade bantyper. I studien används bantyperna som segmenteringsgrund för effektsambanden, hur fel påverkar förseningar. De fem bantyperna är: 1. Storstadsområden 2. Banor som bildar större sammanhängande stråk 3. Banor för övrig viktig gods- och resandetrafik 4. Banor med mindre trafik 5. Banor med ringa eller ingen trafik Figuren nedan visar i grafisk form järnvägsnätets indelning i bantyper. 2 I praktiken kan så klart också infrastrukturrelaterade fel vara både underrapporterade och felrapporterade i Ofelia 12 Analys & Strategi

Figur 3.1: Grafisk sammanställning över bantyper 2010, källa Banverket, Vägverket, Sjöfartsverket, Transportstyrelsen (2009). Analys & Strategi

3.2 Övergripande modellbeskrivning Modell Som utgångspunkt antas att tågets förflyttning mellan två stationer, dess position vid olika tidpunkter, följer nedanstående modell: (3.1) X(t) = d - µt + σ W(t) Där t är tidpunkt X(t) är tågets position längs sträckan (mätt i kilometer från startpunkten X (0)= d) W(t) är en standard Wienerprocess (Brownsk rörelse, VarW(t) = t) d är sträckans längd (kilometer), d > 0 µ är tågets genomsnittliga hastighet under sträckan σ är ett mått på variationen i tågets position ( VarX(t) = σ 2 t ) Med d och µ > 0 innebär minustecknet framför µ i (3.1) att tåget rör sig från startpunkten vid X = d till målpunkten för sträckan vid position X = 0. Estimering och tolkning av restid i modellen En direkt estimering av modellen (3.1) förutsätter att vi har data som ger tågets position vid givna tidpunkter som helst är jämnt och tätt fördelade över ett tidsintervall. Sådana data finns inte. Datamängden från Banstat ger tidpunkterna (glesa) när tåget befinner sig vid givna positioner (stationer). I den situationen kan vi använda en estimationsteknik från teorin om hidden markov models. Låt T a beteckna tågets ankomsttid till målstationen. Eftersom modellen antar att tåget avgår från ursprungsstationen vid tidpunkten t = 0 så är T a också detsamma som restiden mellan stationerna. I fortsättningen kommer vi oftast att kalla T a för restiden. I modellen (3.1) blir T a det som i terminologi från sannolikhetsteorin kallas first hitting time at 0, och skrivs formellt som: (3.2) T a = inf{t: X(t) = 0} Studien syftar till att ge en modell för tågens ankomsttid, vilket här motsvarar restiden mellan stationerna. Ekvation (3.2) är därmed den viktigaste ekvationen för denna studie. Ekvationen kopplar ihop modellen för tågets förflyttning (3.1) med ankomsttiden T a. Det går att visa under modellen (3.1) så har T a en invers normalfördelning som sannolikhetsfördelning, med parametrar d/µ och σ 2 /µ 2. Modellen (3.1) går där- 14 Analys & Strategi

med alltså att estimera med ordinär maximum likelihood-teknik utifrån tågens ankomsttider. Två viktiga egenskaper som går att härleda från modellen är förväntad (genomsnittlig) restid, E(T a ), och dess varians, Var(T a ), för en viss sträcka. De är (3.3) (3.4) Dessa två uttryck kommer att användas vid tillämpning av modellen. Med data bestående av hitting times, går det inte att identifiera alla tre storheterna d, µ och σ. Vi har valt att sätta d till sträckan mellan stationerna utan att estimera någon parameter för d och därmed möjliggöra estimering av både µ och σ. Modellen innehåller då följande tre regressionsliknande ekvationer där oberoende variabler (Z, i matrisform) kommer in för att beskriva de beroende variablerna hastighet och variation i tågets position enligt följande: d = sträcklängd µ = Zβ σ = exp{zδ} Modellen är alltså specificerad i linjär form för hastighet µ och multiplikativt för variationskomponenten σ. Anledningen till den multiplikativa specifikationen av variationskomponenten är att σ vid estimeringen kommer i likelihoodfunktionen i kvadrerad form. En linjär specifikation skulle då innebära svårigheter att entydigt tolka effekten av parametrarna 3. Parametrar som estimeras sammanfattas i vektorerna β och δ. De oberoende variablerna är i detta fall, Bantyp Fel Typ av tåg Vardag/Helg Säsong 3 Ett liknande problem finns även för den linjära specifikationen av hastighet. Det finns en risk att enskilda tågförflyttningar får en negativ genomsnittligt hastighet µ. Det innebär att det finns en positiv sannolikhet att tåget aldrig når sin ankomststation. En likelihoodfunktion baserad på en invers normalfördelning är då inte giltig för den tågförflyttningen. Detta problem var dock inte i närheten att uppstå vid estimeringen. Så den linjära specifikationen för hastighet behölls. Analys & Strategi

3.3 Princip för urval av estimeringsdata Datamängden från Banstat innehåller cirka 27,6 miljoner poster för år 2009 (person- och godståg) Avgränsningen till persontåg innebär att antalet poster blir 18,2 miljoner. En post består av en viss kombination av tågnummer, delsträcka och datum 4. Vid estimeringen blir varje sådan post en observation i estimeringsdata. Det är inte praktiskt möjligt att använda hela datamängden på 27 miljoner poster för estimering. Därför utfördes estimering på ett urval av cirka 90 000 poster från datamängden. Urvalet utformades för att uppfylla följande tre huvudsyften: 1. Ge goda möjligheter att estimera effektsamband som tar hänsyn till bantyp och tågtyp, Tågtyp är en indelning av tågen efter skillnader i hastighet (X2000, regionaltåg och övriga tåg). Eftersom genomsnittlig hastighet är en egenskap i modellen (se ovan) har tågtyp stor betydelse för trovärdigheten i de estimerade effektsambanden. Bantyp är viktig eftersom den används i Trafikverkets nationella planering. 2. Möjliggöra att estimera modellen utan att behöva tillämpa vikter. 3. Inte i onödan begränsa tillämpningen av modellen. Det tredje syftet innebär i klartext att det är en fördel att ta med samtliga delsträckor som trafikeras av ett tågnummer så att ackumulerade effekter över delsträckorna kan studeras när modellen tillämpas. Detta innebär att urvalet blir ett klusterurval med tågnummer som klusterenheter. I ett efterföljande steg inkluderas ett slumpmässigt urval om maximalt tio datum per tågnummer. De två första syftena säkerställs genom att klusterurvalet av tågnummer stratifieras efter tågtyp och en gruppering av bantyperna. Det resulterade urvalet förutsätter att modellen specificeras så att tågtyp kontrolleras för vid estimeringen. I Bilaga 1 finns en redovisning av vilka observationer ur bruttourvalet som var nödvändiga att utesluta i vid estimeringen. Tabell 3.1 visar antalet tågnummer i de sex stratum för populationen i datamängden hämtad från Banstat. Nästa tabell (3.2) visar motsvarande för det resulterande urvalet. I stratifieringen grupperades tågnummer efter bantyp i två kategorier, tåg som trafikerar enbart en bantyp och tåg som trafikerar flera bantyper. 4 I rådata från Banstat består en post av ankomsten till en station för ett tågnummer ett visst datum tillsammans med den efterföljande avgången från samma station. Vid estimering av modellen har data omformats så att en post innehåller avgången från startstationen (plats) för en sträcka och ankomsten till sträckans slutstation för ett visst tågnummer ett visst datum. 16 Analys & Strategi

Tabell 3.1: Antalet tågnummer i populationen Typ av tåg Bantyp pendeltåg x2000 Övriga Summa Enbart en 1744 12 2398 4154 Flera 954 125 2270 3349 Summa 2697 137 4668 7502 Tabell 3.2: Antalet tågnummer i urvalet Typ av tåg Bantyp Pendeltåg x2000 Övriga Summa Enbart en 84 11 67 162 Flera 46 119 63 228 Summa 130 130 130 390 3.4 Referenser Teorin bakom modellen som har använts i studien finns beskriven i kapitel 10 i: Aalen, Borgan, Gjessing (2010). Survival and Event History Analysis. A Process Point of View. Springer Science+Business Media, New York. Grundmodellen för tågförflyttningar, ekvation (3.1), är en stokastisk diffusionsprocess, en utmärkt referens som bland annat täcker in dessa typer av processer är: Protter (2005). Stochastic Integration and Differential Equations. Springer-Verlag Berlin. Nedanstående referens täcker i princip alla detaljer om den nödvändiga teorin bakom modellen, när den estimeras på det sätt som har använts i denna studie (tågets restid som en first hitting time ). Till exempel redogörs i avsnitt 2.3 för problemen med att använda information från framtiden.. Andersen, Borgan, Gill, Keiding (1993) Statistical Models Based on Counting Processes, Springer-Verlag, New York Analys & Strategi

18 Analys & Strategi

4 Estimerade effektsamband 4.1 Omfattningen av tågförflyttningar Som nämnts tidigare genomfördes totalt 27,6 miljoner tågförflyttningar år 2009 och av dessa var 18,2 miljoner med persontåg. Fördelningen av dessa över de tre tågtyperna X2000, Pendeltåg (regionala tåg SL, Västtrafiken och Skånetrafiken) och Övriga tåg ges av tabellen nedan. X2000-tåg står för en mindre del av tågförflyttningarna, 12 procent, medan pendeltåg och övriga tåg delar ungefär lika på resterande tågförflyttningar. Tabell 4.1: Procentuell fördelning av persontågsförflyttningar över tågtyp år 2009. Tågtyp Andel (%) X2000 12 % Pendeltåg 42 % Övriga tåg 46 % När det gäller fördelning över bantyperna så följer de i fallande ordning från bantyp 1 - storstadsområden, till bantyp 5 - Banor med ringa eller ingen trafik. Andelen tågförflyttningar i bantyp 5 är dock mycket låg 0,4 procent och vilket ger problem med tillförlitligheten vid effektskattningar. Därför har i estimeringen bantyp 5 slagits ihop med bantyp 4 - Banor med mindre trafik. Tabell 4.2: Procentuell fördelning av persontågsförflyttningar över bantyp år 2009. Bantyp Andel (%) 1 37,7 % 2 34,9 % 3 21,4 % 4 5,7 % 5 0,4 % 100,0 % Analys & Strategi

4.2 Ingående variabler i estimeringen Vid estimering av modellen såsom beskrivits i Estimering och tolkning av restid i modellen under avsnitt 3.2 inkluderades följande fem variabler. Bantyp Bantyp 4 och 5 har grupperats tillsammans vid estimeringen. I modellspecifikationer har beteckningen BANTYPn använts för denna variabel. Antal fel vid ankomststationen Beteckningen ANTALFEL används i modellspecifikationer för denna variabel. Typ av tåg Indelning i tre kategorier efter skillnad i genomsnittlig hastighet: 1. X2000 2. Pendeltåg (regionala tåg SL, Västtrafiken och Skånetrafiken) 3. Övriga tåg I modellspecifikationerna representeras denna variabel av de tre indikatorvariablerna X2000, PENDELTAG och OVRIGATAG. Vardag/Helg Indikator variabler för att en tågförflyttning sker under en vardag respektive helg. I modellspecifikationerna representeras denna variabel av indikatorvariabeln VARDAG Säsong Fyra indikatorvariabler för vilken del av året som en tågförflyttning sker: 1. Höst (september, oktober och november) 2. Vinter (december, januari och februari) 3. Vår (mars, april och maj) 4. Sommar (juni, juli och augusti) I modellspecifikationerna representeras denna variabel av de fyra indikatorvariablerna HOST, VINTER, VAR och SOMMAR. I tabellen nedan indikeras respektive variabels funktion i modellerna för tågens hastighet och variationskomponent. Tabell 4.3: Variabelnamn och funktion Funktion Huvudvariabler Kontrollvariabler Variabelnamn BANTYPn ANTALFEL X2000, PENDELTAG, OVRIGATAG VARDAG HOST, VINTER, VAR, SOMMAR 20 Analys & Strategi

4.3 Estimerade effektsamband Specifikation för hastighet och variationskomponent Estimeringen utfördes med variablerna beskrivna ovan införda linjärt i funktionerna för hastighet (µ) och tågets variation i position (σ). Specifikationen av hastighet och variationskomponent enligt slutmodellen vid estimeringen ges av ekvationerna nedan. För att något förenkla formlerna har indexering med de enskilda tågförflyttningarna i uteslutits (gäller för µ, σ samt de oberoende variablerna). (4.1) (4.2) Hastighetskomponenten µ innehåller en interaktion mellan antal fel och bantyp, övriga parametrar är enbart huvudeffekter. Så som interaktionen mellan antal fel och bantyp är specificerad, blir den totala bantypsuppdelade effekten för ett fel på det sätt som visas i tabell 4.4 nedan. Tabell 4.4: Totala feleffekten enligt ekvation (4.2) uppdelad per bantyp. Bantyp Feleffekt 1 β 5 2 β 5 + β 6 3 β 5 β 5 = 0 4,5 β 5 Mätenheter och tolkning av parametrar Parametrarna i modellen för hastighet har enheten km/h. I genomgången av estimerade hastighetseffekter nedan redovisas parametrarna i den enheten. I modellen för variationskomponenten så har σ totalt enheten km/ h vilket är en tämligen svårtolkad enhet. Exponentieringen av vänsterledet i (4.2) gör den att exponentierade interceptparameter får den enheten. Övriga parametrar i variationskomponenten som hör till indikatorvariabler blir i exponentierad form helt enkelt justeringsfaktorer Analys & Strategi

som förändrar värdet på σ, som ges av den exponentierade interceptparametern. Från ekvation (3.4) i avsnitt 3.2 fås att standardavvikelsen för en tågförflyttnings restid blir: (4.3) Så parametrarna β 13,, β 19 påverkar restidens standardavvikelse på samma sätt som de påverkar variationskomponenten för tågets position. Vid en sådan tolkning måste dock en viss försiktighet användas. Eftersom hastigheten också ingår i uttrycket för restidens standardavvikelse så förändras standardavvikelsen på ett mer komplicerat sätt för variabler som ingår både i hastighets- och variationskomponenten. I avsnittet Estimerade effekter på variationskomponenten redovisas effekterna när parametrarna exponentieras och ges som den procentuella förändringen av variationskomponenten σ. Slutligen presenteras den statistiska signifikansen för de estimerade parametrarna från ekvation (4.1) och (4.2). Då redovisas parametrarna med de naturliga enheterna som de fick vid estimeringen, det vill säga km/min för hastighetsparametrarna och de icke-exponentierade parametrarna för variationskomponenten där σ har enheten km/ min. Orsaken är att standardvärden för parametrar och statistiska tester är beräknade med dessa enheter. Estimerade hastighetseffekter Hur antal fel påverkar hastigheten Felens systematiska effekt på restiden för en sträcka (vilket i sin tur påverkar ankomstförseningen) sker genom att förekomst av fel vid ankomststationen sätter ned hastigheten 5. De estimerade hastighetsnedsättningarna i km/h per bantyp ges i tabell 4.5 nedan. Indelningen av felen vid ankomststationen i kategorierna Infrastruktur relaterade och Ej infrastrukturrelaterade fel enligt Bilaga 2, visade inte på någon signifikant skillnad i feleffekt mellan kategorierna. Estimeringen av feleffekter utfördes därför på det totala antalet fel som var registrerade i Ofelia vid ankomststationen. 5 Hastighetsnedsättningen är proportionellt mot antalet fel vid ankomststationen. 22 Analys & Strategi

Tabell 4.5: estimerade hastighetsnedsättning per fel vid ankomststationen uppdelade per bantyp. Bantyp km/h 1-7,7 2-9,1 3 0,0 4-5 - Hastighetsnedsättningen är något större i bantyp 2 än 1, vilket kan vara en effekt av att den genomsnittliga hastigheten är högre i bantyp 2 för tåg utan förekomst av fel vid ankomststationen (se parameterlistan i tabell 4.6 nedan). För bantyp 3 är det inte möjligt att konstatera en statistiskt säkerställd hastighetsnedsättning, dess feleffekt är därför satt till noll. En möjlig förklaring till detta kan vara att det finns tillräckliga möjligheter för tågen att köra in förseningar i denna bantyp. Att hastighetsnedsättningen för den kombinerade bantypen 4 och 5 har satts till - beror på att det finns tveksamheter om specifikationen av modellen är lämplig för dessa bantyper 6. Den kombinerade bantypen har inte en feleffekt signifikant skild från noll. Men om bantyperna separeras så visar det sig att deras feleffekter är starkt beroende på ingående variabler och hur modellen övrigt specificeras. I detta fall är det troligen en övertolkning att säga att deras feleffekter är noll. En mer konservativ tolkning är att modellen inte är tillämpbar för bantyp 4 och 5 7. Övriga hastighetseffekter som skattats Interceptparametern för hastighet β 1 vilken kan tolkas som hastigheten för ett X2000-tåg som trafikerar en sträcka i bantyp 1 under höstmånaderna, estimerades till 98,2 km/h. Den bör nog främst tolkas som att X2000-tågen långt ifrån har möjlighet att köra i sin högsta hastighet så länge de går i bantyp 1. De estimerade hastighetsskillnaderna mellan en viss bantyp och bantyp 1 ges i tabell 4.6 nedan. Klart högst genomsnittlig hastighet kan tågen hålla i bantyp 2 vilken i princip överensstämmer med den delen av järnvägsnätet utanför storstadsområdena som har dubbelspår. I bantyp 3 sjunker den genomsnittliga hastigheten så att den enbart ligger 5,4 km/h över hastigheten i bantyp 1. Att bantyp 1 har en lägre genomsnittlig hastighet än bantyp 2 och 3 är naturligt med tanke på den frekventa trafikeringen av tåg med olika hastigheter som känne- 6 Att försöka estimera dessa bantyper i separata modeller är heller inte tillfredställande eftersom en stor del av tågen trafikerar flera bantyper. 7 Vid tillämpning av effektsambanden, enligt nästa kapitel, är feleffekten för bantyp 4 och 5 satt till noll. Men tolkningen av detta är upp till den som tillämpar modellen. Analys & Strategi

tecknar bantyp 1. Hastigheten är klart lägst i bantyp 4 och 5 där den ligger 35,5 km/h under hastigheten i bantyp 1. Den stora hastighetsskillnaden väcker dock tveksamheter. Tillsammans med de frågetecken som fanns för dessa två bantyper när det gäller effekterna av fel är slutsatsen att modellen bör användas med försiktighet för bantyp 4 och 5. Tabell 4.6: Estimerade hastighetsskillnader (km/h) mellan bantyperna med bantyp 1 som referens i jämförelserna. Bantyp km/h 1 referens 2 +53,3 3 +5,4 4-5 -35,5 Hastighetsskillnader mellan de tre tågtyperna X2000, pendeltåg och övriga tåg ges i tabell 4.7 nedan. Ordningsföljden är rimlig, där pendeltåg har lägst genomsnittlig hastighet. Övriga tåg ligger mellan pendeltåg och X2000 i hastighet, men närmare pendeltåg än X2000. Övriga tåg innehåller en betydande andel ICtåg som går relativt långa delsträckor mellan stoppen för passagerarutbyte. Det innebär färre accelerationer och deaccelerationer än pendeltågen, vilket motiverar pendeltågens lägre hastighet. Tabell 4.7: Estimerade hastighetsskillnader (km/h) mellan olika tågtyper med X2000 som referens i jämförelserna. Tågtyp X2000 km/h referens Pendeltåg -23,0 Övriga tåg -19,7 De sista hastighetseffekterna avser skillnader i genomsnittlig hastighet mellan årstiderna, vilket redovisas i tabell 4.8 nedan. Skillnaden i hastighet är betydligt mindre än för bantyp och typ av tåg. Högst hastighet håller tågen under hösten. Hastigheten sjunker något under vår och sommar -2,2 och -2,5 km/h. Under vintern sjönk hastigheten ytterligare så att den låg 6,1 km/h lägre än hastigheten under hösten. Syftet med att inkludera indikatorvariabler för årstiderna i modellen har varit att kontrollera för årstidseffekter så att de inte ligger med i de estimerade feleffekterna. De här estimerade årstidseffekterna bör ses som helt knutna till estimationsdata som avser år 2009 och deras prognosvärde för framtida årstidseffekter bör därför anses vara obefintligt. 24 Analys & Strategi

Tabell 4.8: Estimerade hastighetsskillnader (km/h) mellan de fyra årstiderna med höst som referens i jämförelserna. Bantyp Höst km/h referens Vinter -6,1 Vår -2.2 Sommar -2,5 Avslutningsvis när det gäller de estimerade hastighetseffekterna så kan det vara av nytta att diskutera de estimerade effekternas stabilitet avseende avvikande modellspecifikationer. Syftet med estimeringen har varit att ge tillförlitliga skattningar av bantypsuppdelade feleffekter (av fel vid ankomststationen). Bantyp, typ av tåg samt årstid har enbart inkluderats i modellen utifrån det syftet. Ett antal skilda specifikationer avseende bantyp och typ av tåg har prövats. Ingen av dessa gav mer än marginella förändringar i skattade feleffekter, vilket är bra ur stabilitetssynpunkt. Däremot påverkar inkluderingen av indikatorvariabler för årstid i modellen de skattade feleffekterna till viss del, vilket motiverar att de tas med i modellen. Estimerade effekter för variationskomponenten σ Det exponentierade interceptet för variationskomponenten estimerades till 1,43. Med modellen specificerad enligt ekvation (4.2) så är det samma som variationskomponenten σ för ett tåg som trafikerar bantyp 1 under en helg under hösten. Variationskomponenten σ är relaterade till standardavvikelsen för tågets position X(t) vid en given tidpunkt t. Standardavvikelsen är: (4.4) En tolkning av interceptet för variationskomponenten går därför att göra genom som ett exempel beräkna ett 95 procents konfidensintervall för tågets position efter en timmes förflyttning. Anta då att tåget har som variationskomponent (bantyp 1, hösthelg) och åker med genomsnittlig hastighet, det vill säga det är också ett X2000-tåg. Vi får att X(60) = 98,2 km, och från ekvation (4.4) så: Tåget befinner sig då efter en timmes förflyttning med 95 procents sannolikhet inom intervallet km från sin avgångsstation. Analys & Strategi

För de övriga estimerade effekterna på variationskomponenten gäller att de kan tolkas som förändringsfaktorer för interceptet. Tabellerna 4.9-4.11 visar dessa effekter. Förändringarna i variationskomponenten är störst mellan bantyperna, där bantyp 2 och 3 har större variation än bantyp 1 och bantyp 4 och 5 lägre. Tabell 4.9: Estimerade förändringar i variationskomponenten mellan bantyperna med bantyp 1 som referens i jämförelserna. Variationen för tågförflyttningar under vardagar är något större än för helgdagar. För årstiderna är variationen större jämfört med hösten för alla tre övriga årstider där sommaren ligger allra högst +10,1 procent jämfört med hösten. För årstiderna gäller samma reservation som för motsvarande hastighetskomponenter. De bör ses som knutna till estimationsåret 2009 och bör inte ses som att de säger något allmänt om årstidseffekter i variationskomponenten för tågförflyttningar. Bantyp Förändring (%) 1 referens 2 +26,3 % 3 +31,0 % 4-5 -8,8 % Tabell 4.10: Estimerade förändringar i variationskomponenten mellan helg och vardag med helg som referens i jämförelserna. Veckodag Förändring (%) Helg referens Vardag -8,8 % Tabell 4.11: Estimerade förändringar i variationskomponenten mellan de fyra årstiderna med höst som referens i jämförelserna. Årstid Förändring (%) Höst referens Vinter +8,9 % Vår +3,5 % Sommar +10,1 % Statistiska signifikanser för estimerade parametrar I tabell 4.12 nedan visas signifikanser i form av p-värden för estimerade parametrar enligt specifikationen i ekvation (4.1) och (4.2). Samtliga ingående pa- 26 Analys & Strategi

rametrar är signifikanta på en mycket låg signifikansnivå, alltså det som ofta brukar betecknas som mycket hög signifikans. Signifikans får också en annan betydelse i denna studie där populationen på samtliga 18,2 miljoner persontågsförflyttningar år 2009 finns tillgängligt. Att ett urval har använts för att estimera parametrarna beror främst på praktiska skäl, att använda hela populationen vid estimeringen skulle ställa mycket stora krav på datorkapacitet. I detta sammanhang är p-värdena framför allt ett mått på att ett tillräckligt stort urval har använts för att kunna upptäcka och säkerställa rimligt betydelsefulla effekter. P-värdena i tabell 4.12 antyder att så är fallet i det använda nettourvalet av 85 003 tågförflyttningar. Tabell 4.12: Signifikanstester för enskilda parametrar estimerade enligt specifikationerna i ekvation (4.1) och (4.2). Variabel Värde Std. Z P-värde Hastighetsparametrar [km/min] β 1 Hastighetskonst. (intercept) 1,636 0,009 189,282 < 0,00001 β 2 bantyp 2 0,888 0,008 111,128 < 0,00001 β 3 bantyp 3 0,090 0,011 8,507 < 0,00001 β 4 bantyp 4 eller 5-0,592 0,017-34,255 < 0,00001 β 5 Antal fel vid ankomststationen -0,128 0,003-38,295 < 0,00001 β 6 Antal fel vid ank.station * bantyp 2-0,024 0,007-3,347 0,00082 β 7 Pendeltåg -0,383 0,009-40,728 < 0,00001 β 8 Övriga tåg -0,329 0,010-33,289 < 0,00001 β 9 Vinter -0,102 0,008-12,163 < 0,00001 β 10 Vår -0,037 0,009-3,899 0,00014 β 11 Sommar -0,041 0,008-4,966 < 0,00001 Variansparametrar [enhetsfria, enl. spec. (4.2)] β 12 varianskonst. (intercept) 0,357 0,007 48,419 < 0,00001 β 13 bantyp 2 0,238 0,006 43,199 < 0,00001 β 14 bantyp 3 0,270 0,009 30,304 < 0,00001 β 15 bantyp 4 eller 5 0,368 0,019 19,270 < 0,00001 β 16 Vardag -0,092 0,006-16,312 < 0,00001 β 17 Vinter 0,085 0,007 12,708 < 0,00001 β 18 Vår 0,034 0,008 4,468 < 0,00001 β 19 Sommar 0,096 0,007 14,345 < 0,00001 Analys & Strategi

28 Analys & Strategi

5 Hur effektsambanden kan tillämpas 5.1 Utgångspunkter för tillämpning De parametrar som estimerades i avsnitt 4.3 för hastighet µ och varianskomponent (i tågets position) σ enligt modellen given av ekvation (3.1) kan användas för att ge prognoser för de två storheterna. Studiens huvudsyfte handlar dock om att ge prognos om förändringar i restider (och därmed ankomstförseningar). Ekvation (3.3) och (3.4) som ger den genomsnittliga restiden ET a 8 och dess varians som en funktion av µ och σ, kan då användas för sådana prognoser. Dessutom går det prognostisera många andra mått som berör restiden genom att utnyttja det faktum att modellen (3.1) innebär att ett tågs restid för en given delsträcka följer en invers normalfördelning. I detta fall ges fördelningsfunktionen för den inversa normalfördelningen av: (5.1) för t > 0, där är fördelningsfunktionen för en standard normalfördelning och d är längden på delsträckan som tåget trafikerar (som i avsnitt 3.1). I ekvationen (3.3) för genomsnittlig (förväntad) restid så är funktionsformen inte linjär med avseende på hastighet µ. I restidens varians, ekvation (3.4), så är den inte linjär varken med avseende på µ eller σ. Det innebär att det inte är realistiskt att göra prognoser för genomsnittlig restid eller dess varians genom att använda genomsnittliga värden för tågen avseende dessa storheter. I stället måste prognosen göras genom att beräkna modellens förutsägelse i varje unik kombination av variablerna som ingick i de estimerade ekvationerna (4.1) och (4.2) för µ och σ. Sedan kan resultaten aggregeras till prognoser som täcker en större del av populationen av tågförflyttningar. För att undvika att kalibrera modellen så förankras prognoserna istället i de faktiskt observerade hastigheterna och restiderna för de enskilda tågförflyttningarna i estimationsdata 9. Det innebär en så kallad pivot point-tillämpning av modellen. Pivot point-tekniken är möjlig att tillämpa både multiplikativt och additivt. Eftersom hastigheten µ i ekvation (4.1) är additiv avseende de oberoende variablerna och restidens varians i ekvation (3.4) är additiv avseende genomsnittlig (förväntad) restid så är det lämpligt att förankra både hastighet och res- 8 I fortsättningen används enbart beteckningen restid för ankomsttiden T a. 9 En tågförflyttning är ett tågnummers förflyttning för en viss delsträcka ett visst datum. Analys & Strategi

tid additivt till dess observerade värden i estimationsdata. Variationskomponenten σ är inte möjlig att observera, därför används enbart modellens prognos, utan pivot point-justering, i samtliga fall där σ behöver beräknas. I formlerna nedan används σ modell för att beteckna detta förhållande. För en storhet M i som ska prognostiseras innebär additiv förankring att dess prognos beräknas genom: (5.2) där är det observerade värdet för tågförflyttning i för M, är det modellberäknade värdet för estimationsdata och det modellberäknade prognosvärdet för M. Prognosen är alltså summan av det observerade värdet i estimationsdata och den modellberäknade skillnaden mellan prognos och estimationsdata. Prognostiserad hastighet för en tågförflyttning blir därmed (5.3) Om T i får beteckna restiden för tågförflyttning i, så beräknas dess prognos som (5.4). Där det sista ledet fås genom att använda ekvation (3.3). Restidens prognostiserade varians fås då, genom att använda ekvation (3.4), till (5.5). Slutligen går det att prognostisera restidens fördelningsfunktion genom att sätta in i ekvation (5.1), då fås (5.6) 30 Analys & Strategi

5.2 Uppräkning av prognosen till populationsnivå Vid tillämpning så räknas prognosresultaten upp till populationsnivå 10 genom att använda vikter konstruerade så att en tågförflyttning i estimationsdata får tilldelas en vikt som motsvarar dess del av populationen 11. Denna teknik brukar i transportmodellsammanhang ofta kallas för enumeration of sample. Om återigen får beteckna någon prognosstorhet för tågförflyttning i i estimationsdata så fås dess medelvärde i en delgrupp G av populationen, som (5.7) och dess total, fås som (5.8) Där w i är vikterna. Delgruppen G kan vara vilken grupp som helst som är möjlig att definiera utifrån tågförflyttningarna i estimationsdata. I normalfallet är G till exempel hela populationen (G definieras av samtliga tågförflyttningar i estimationsdata) eller en viss bantyp (G definieras av de tågförflyttningar som hör till den bantypen). Om en prognos görs där antal fel har minskats med 10 procent så kan prognostiserade förändringen,, i ankomstförseningen jämfört med de faktiska förhållandena år 2009 för tågförflyttning i skrivas som och den genomsnittliga förändringen i ankomstförsening för en delgrupp G (t.ex. en viss bantyp) blir: 10 Populationen är samtliga tågförflyttningar för persontåg i det ursprungliga datauttaget för 2009 från Banstat. 11 Horowitz-Thomphson estimatorn för populationsvikten, vilket är den inverterade urvalssannolikheten för att en observation ingår i urvalet. Urvalet är i detta fall ett stratifierat klusterurval så urvalssannolikheten är beräknad som den betingade sannolikheten att en observation ingår i klustret multiplicerad med sannolikheten att klustret ingår i urvalet. Analys & Strategi

Och den totala förändringen i ankomstförseningar i G blir: 5.3 Praktisk tillämpning I projektet har en enkel modell tagits fram i form av en excelfil som implementerar tillämpningen så som den är beskriven i föregående två avsnitt. Filen innehåller estimationsdata och kan användas för att skapa prognoser över bantypsuppdelade förseningseffekter när antalet fel förändras. 32 Analys & Strategi

6 Slutsatser och vidare utveckling Studien har visat att det är möjligt att finna en god modell som beskriver hur fel i järnvägssystemet påverkar tågens ankomstförseningar. Erfarenheter från studien och modelltillämpningen En farhåga inför projektet var att datamaterialet eventuellt inte skulle hålla tillräckligt hög kvalitet. Erfarenheterna från studien visade att så inte var fallet. Bedömningen var att kvaliteten var tillräckligt god i förhållande till studiens syfte. Delar av teorin runt modellen kan beroende perspektiv beskrivas som avancerad alternativt svårtillgänglig. Modellen har emellertid en betydande praktisk fördel i att den kan hantera estimering av parametrar på stora datamaterial. Modellen så som den har varit specificerad i denna studie medger en förhållandevis enkel tillämpning för att få prognosresultat och inget stort specialiserat modellsystem måste tas fram. Att modellen separerar faktorer som påverkar tågets hastighet och faktorer som påverkar variationskomponenten i modellen, innebär ett stort stöd vid diskussioner om specifikation av modellen och tolkning av resultaten. En slutsats på detta tema är också att det går att diskutera vidare när det gäller specifikationen av modellen. Den nuvarande bör ses som en rimlig kompromiss i nuvarande stadium. Tankar om fortsatt utveckling Projektet har inneburit vissa avgränsningar och modellen speglar endast en del av de förseningar som kan uppstå i systemet. De två viktigaste avgränsningarna är att enbart ankomstförseningar studeras och att endast primära förseningseffekter ingår i modellen. Det finns flera sätt att utveckla modellen, det som ligger närmast är att arbeta vidare med ankomstförseningar så att även sekundära förseningseffekter behandlas, alltså effekter som uppstår på grund av att tågen påverkar varandra. Att hantera avgångsförseningar kommer att kräva en delvis ny modellansats. En sådan utveckling ligger därför naturligt längre fram i tiden. Hur tågen påverkar varandra i form av förseningar är av stort intresse, bland annat för att studera kapacitetsfrågor. I dagens prognossystem för person- och godstrafik ger en kapacitetsförstärkning i form av ökad turtäthet enbart ett positivt tillskott i nyttorna för resenärer och gods. Negativa effekter på grund av eventuell sämre tillförlitlighet kan inte hanteras inom prognossystemet. Att utveckla modellen så att den kan hantera sekundära förseningseffekter är därför väl motiverat. Med en sådan modell kan inte bara felens förseningseffekter stu- Analys & Strategi

deras utan också förseningseffekter på grund av förändringar i turtätheten. Resultaten kan jämföras med de så kallade volume-delay funktionerna som används i prognossystem för vägtrafik. En sådan vidareutveckling innebär att nya variabler förs in i modellen. Den centrala frågeställningen är att beskriva tidsavståndet till framförvarande tåg. Det finns ett antal alternativa former av variabler att beskriva detta som bör testas, exempelvis tidsavstånd enligt tidtabellen eller faktiskt tidsavstånd (dynamiskt avstånd). Beroende på val av variabler kan modellen behöva tillämpas på ett annat sätt än hur det har skett i denna studie. Till exempel kan det innebära att det inte räcker att tillämpa modellen på ett urval av de faktiska tågförflyttningarna, samtliga förflyttningar kan behöva användas för att få rättvisande resultat. För att få parametrar som väl beskriver effekten av turtätheten kan det också vara relevant att studera om tåget var försenat redan till avgångsstationen eller om tåget har tappat sin tidslucka och nu ligger bakom ett annat tåg än planerat. Noggrannhet krävs vid specificeringen av modellen när sådan information används eftersom de ger upphov till så kallat dynamiska variabler som ställer specifika krav på hur modellen ska tillämpas för att ge rättvisande resultat. Även variabler som beskriver trafikledningens arbete kan vara intressanta att försöka studera, så som att ett tåg som redan har blivit försenat på en delsträcka prioriteras ned så att dess försening ökar. Det finns emellertid en problematik med endogenitet för dessa variabler eftersom det är högst troligt att det framtida (förväntade) utfallet för ett tågs ankomsttid påverkar trafikledningen. Bedömningen här är att en sådan utvidgning av modellen bör komma efter de tidigare beskrivna anpassningarna. 34 Analys & Strategi

Bilaga 1: Uteslutna observationer i estimationsdata Principen för urvalet av estimeringsdata beskrevs i avsnitt 3.3. Bruttourvalet bestod av 390 tågnummer fördelade på 130 var för de tre tågtyperna X2000, Pendeltåg och Övriga tåg. För varje tågnummer i urvalet inkluderades samtliga delsträckor som detta tåg trafikerade samt ett slumpmässigt urval av upp till 10 datum. Totalt innebar detta att bruttourvalet bestod av 91 292 observationer. Efter uteslutning av observationer som antingen saknade fullständig information om alla relevanta variabler eller innehöll logiska fel eller värden som bedömdes vara orimliga, återstod ett nettourval på 85 003 observationer. Alltså uteslöts totalt 6,8 procent av observationerna. Tabell I nedan ger en redovisning av betydelsen av de olika skälen för uteslutning. Tabell I: Redovisning av orsak till uteslutning ur bruttourvalet Orsak till uteslutning av observationer Andel (%) Ologiska värden Negativ restid 0,10 % Total försening < -1300 min 0,16 % Orimliga värden Restid > 1000 min 0,12 % Total försening > 1300 min 0,33 % Saknad information Saknad bantypsinformation 5,18 % Övrig saknad information 1,62 % Totalt uteslutna observationer 6,80 % Totalt sett så saknas information om bantypstillhörighet på 11,2 procent av det totala antalet observationer i datauttaget från Banstat 12. De 5,18 procent är en delmängd av den totala andelen på 11,2 procent som saknar denna information. Av de 51 599 fel som finns rapporterade i Ofelia under år 2009 var det möjligt att unikt matcha 95 procent av de ej åtgärdade felen till en trafikerad sträcka eller station vid en viss tidpunkt. 12 Bantyp var inte inkluderat i det ursprungliga uttaget från Banstat, utan fördes på i efterhand. Det var dock inte möjligt att inom ramen för denna studie nå en bättre matchning än 88,8% Analys & Strategi

36 Analys & Strategi

Bilaga 2: Infrastrukturrelaterade fel Fel registrerade i Ofelia under fältet Symptom har klassificerats som infrastrukturrelaterade eller ej infrastrukturrelaterade. Klassificeringen redovisas i nedan. De är infrastruktur relaterade fel om de har en etta i kolumnen infrafel. Analys & Strategi

Symptom Infrafel Symptom Infrafel Symptom Infrafel akut felavhjälpning 1 Kraftförsörjning 1 spår 1 annan orsak 1 lastförskjutning/fellastning/lastjustering 0 spårfel 1 atc-fel 1 låg kontaktledningsspänning 1 spårhalka 0 atc-nödbroms 1 Maskinfel 0 spårledning 1 atc felkod 1 Matarledning 1 spårspärr 1 avstängd detektor 1 Människa 0 spårväxel 1 avsyning av banan 1 Nätstation 1 spårväxelfel 1 avvattning, pumpsystem 1 obehöriga i spåret 0 spårväxelfel snöoväder 1 Balisgrupp 1 okänd orsak 0 spänningslös kontaktledning 1 Bana 1 olycka, tillbud 0 stoppbock 1 Bangårdsanläggningar 1 Omformarstation 1 storm/snöstorm 0 bangårdsbelysning & plattformsbelysning 0 operativa stödsystem 1 strömavtagare 0 Bank 1 ordergivning pga. Tågföring 0 talkommunikation 0 Banöverbyggnad 1 Ospa 0 tavla 0 Brand 1 otillåten stoppsignal-passage 0 teleanläggningar 1 Brofel 1 otjänlig väderlek på bangård 0 telecentral 1 Bromsprovanläggning 0 Oväder 0 telestationsanläggning 1 Broöppning 0 Plankorsning 1 teletransmissionsanläggning 1 Detektor 0 Plankorsningsolycka 0 terminal/plattform-hantering 0 Detektorlarm 0 plattform & lastkaj 0 trafikantinformation 0 djur i spåret 0 Plattformsskylt 0 trafikstyrningssystem tlc, funktionsfel 1 dynamisk skylt 0 Plattformsövergång 1 transformatorstation 1 Elanläggningar 1 polis / sjukdom 0 trumma 1 Eldriftledningssystem 1 Positioneringssystem 0 tunnel 1 Fastighet 0 påkörd person 0 tåg- och lokvärmeanläggning 0 felaktig el- eller signalställverksmanöver 1 påkörda djur 0 tåg/arbetsrörelse 0 felaktig elställverksmanöver 1 Rangerbromssystem 1 tågledningssystem - argus 1 Fordon 0 Rangerställverk 1 tågledningssystem - ebicos 900 & ebicos 900 nt 1 framkomlighet i spår pga. väder 0 Reservmatning 1 tågledningssystem - ebicos tms 1 Frånskiljarstation 1 Sabotage 1 uppkörd växel 1 Fördelningsstation 1 sabotage/hot 0 urspårning 1 Hjulskada 0 Sektioneringsstation 1 urspårning/kollision 1 Hjälpkraftledning 1 Signalanläggningar 1 väg 0 Hägnad 0 signaler, funktionsfel 1 väglag 0 Högtalarsystem 0 Signalfel 1 växelfel 1 ingen uppgift från jf 0 signalställverk, funktionsfel 1 översvämning 1 Kabelanläggning 1 signalställverk, rbc och linjeblockeringssystem 1 övervakningskamera 0 Kanalisation 1 Signal 1 övriga anläggningar 0 Klockor 0 Signaltelefon 0 övriga naturhinder 0 Kontaktledningsfel 1 självavkoppling/avslitet tåg 0 Kopplingscentral 1 snö och is 0 38 Analys & Strategi