Analys av nutidens tågindelning

Transkript

1 Kandidatuppsats i Statistik Analys av nutidens tågindelning Ett uppdrag framtaget av Trafikverket Molinia Gabrielsson Viktoria Grek Avdelningen för Statistik och maskininlärning Institutionen för datavetenskap Linköpings universitet Vårterminen, 2018 ISRN: LIU-IDA/STAT-G 18/005 SE

2 Handledare: Krzysztof Bartoszek Examinator: Annika Tillander

3 Abstract The information used in this paper comes from Trafikverket s delivery monitoring system. It consists of information about planned train missions on the Swedish railways for the years 2014 to 2017 during week four (except planned train missions on Roslagsbanan and Saltsjöbanan). Trafikanalys with help from Trafikverket presents public statistics for short-distance trains, middle-distance trains and long-distance trains on Trafikanalys website. The three classes of trains have no scientific basis. The purpose of this study is therefore to analyze if today s classes of trains can be used and which variables that have importance for the classification. The purpose of this study is also to analyze if there is a better way to categorize the classes of trains when Trafikanalys publishes public statistics. The statistical methods that are used in this study are decision tree, neural network and hierarchical clustering. The result obtained from the decision tree was a percent accuracy for the classification of Train type. The most important variables for Train type were Train length, Planned train kilometers and Planned km/h. Neural networks were used to investigate whether this method could also provide a similar result as the decision tree too strengthening the reliability. Neural networks got an 88 percent accuracy when classifying Train type. Based on these two results, it indicates that the larger proportion of train assignments could be classified to the correct Train Type. This means that the current classification of Train type works when Trafikanalys presents official statistics. For the new train classification, three groups were analyzed when hierarchical clustering was used. These three groups were not the same as the group s shortdistance trains, middle-distance trains and long-distance trains. Because the new divisions have blended the various passenger trains, this result does not help to find a better subdivision that can be used for when Trafikanalys presents official statistics.

4

5 Sammanfattning Datamaterialet som används i uppsatsen kommer ifrån Trafikverkets leveransuppföljningssystem. I datamaterialet finns information om planerade tåguppdrag för de svenska järnvägarna för år 2014 till 2017 under vecka fyra (bortsett från planerade tåguppdrag för Roslagsbanan och Saltsjöbanan). Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistanståg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågkategorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som hänger ihop med denna indelning. Syftet är även att undersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik. De statistiska metoder studien utgått ifrån är beslutsträd, neurala nätverk och hierarkisk klustring. Resultatet som erhölls från beslutsträdet var en ackuratess på procent för klassificeringen av Tågsort. De variabler som hade störst betydelse för Tågsort var Tåglängd, Planerade tågkilometrar och Planerad km/h. Neurala nätverk användes för att undersöka om även denna metod kunde ge ett liknande resultat som beslutsträdet och därmed stärka tillförlitligheten. Neurala nätverket fick en ackuratess på 88 procent vid klassificeringen av Tågsort. Utifrån dessa två resultat tyder det på att den större andelen tåguppdrag kunde klassificeras till rätt Tågsort. Det innebär att nuvarande klassificering av Tågsort fungerar när Trafikanalys presenterar officiell statistik. För den nya tågklassificeringen analyserades tre grupper när hierarkisk klustring användes. Dessa tre grupper liknande inte dagens indelning för kortdistanståg, medeldistanståg och långdistanståg. Eftersom att de nya indelningarna blandade de olika persontågen går det inte med detta resultat att hitta en bättre indelning som kan användas när Trafikanalys presenterar officiell statistik.

6

7 Innehåll 1 Inledning Bakgrund Syfte Frågeställningar Uppdragsgivare Etiska aspekter Data Beskrivning av data Responsvariabel Avgränsningar Databearbetning Aggregering Variabelbearbetning Bortfall Metod Klassificeringsmetoder Beslutsträd Neurala nätverk Ackuratess och felkvot Hierarkisk klustring Olikhetsmatris Avståndsmått Länkningsmetoder Dendrogram Standardisering Programvaror Resultat och analys Beskrivande statistik Histogram över förklaringsvariablerna Andelen tågsorter som planerades Andelen tågtyper som planerades Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Klassificering Beslutsträd Neurala nätverk

8 INNEHÅLL 4.3 Hierarkisk klustring Diskussion och slutsats 35 6 Bilagor Beslutsträd Neurala nätverk Utskrift från de slutgiltiga vikterna Diagram på de slutgiltiga vikterna Hierarkisk klustring Två stycken kluster Fyra stycken kluster

9 Figurer 2.1 Korrelation mellan framförda variabler och planerade variabler Andelen tåguppdrag som planerats mellan år 2014 till 2017 under vecka fyra Exempel på ett beslutsträds uppbyggnad Ett neuralt nätverk med Q stycken noder i outputlagret och med M stycken noder i det gömda lagret Exempel på single link Exempel på complete link Exempel på group average Exempel på ett dendrogram Histogram som visar fördelningen för variabeln Antalet dragfordon Histogram som visar fördelningen för variabeln Antalet hjulaxlar Histogram som visar fördelningen för variabeln Antalet vagnar Histogram som visar fördelningen för variabeln Planerade kilometrar Histogram som visar fördelningen för variabeln Planerad km/h Histogram som visar fördelningen för variabeln Planerad tågtid Histogram som visar fördelningen för variabeln Tåglängd Histogram som visar fördelningen för variabeln Tågvikt Dendrogram för hierarkisk klustring Beslutsträdet Tabell för neurala nätverkets variabelvikter Variablernas vikter för neurala nätverk, diagram

10 Tabeller 1.1 Exempel på punktlighetsstatistik som handlar om den procentuella förseningen Variabelbeskrivning för variabler som används i uppsatsens analys Förklaring av responsvaribeln Tågsort Exempel på ett icke-komprimerat datamaterial, fiktiva siffror Exempel på ett komprimerat datamaterial, fiktiva siffror Exempel på olikhetsmatris, fiktiva siffror Andelen tågsorter som planerades mellan år 2014 till 2017 vecka fyra Andelen tågtyper som planerades mellan år 2014 till 2017 vecka fyra Beskrivande statistik för pendeltåg Beskrivande statistik för flygtåg Beskrivande statistik för regionaltåg Beskrivande statistik för fjärrtåg Beskrivande statistik för snabbtåg Ackuratess och felkvot för beslutsträdet Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för beslutsträdet Variable importance för Tågsort Felkvot och ackuratess för neurala nätverket Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för neurala nätverket Hierarkisk klustring, kluster Hierarkisk klustring, kluster Hierarkisk klustring, kluster Hierarkisk klustring, fördelning av Tågsort i de olika klustrena Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Två stycken kluster Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Två stycken kluster Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Fyra stycken kluster Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Fyra styken kluster

11 TABELLER Centrala begrepp Dragfordon - Fordon med egen framdrivningsutrustning. Fjärrtåg - Fjärrtåg klassas som långdistanståg på Trafikverket och Trafikanalys punktlighetsstatistik. Dessa tåg transporterar resenärer vanligtvis längre sträckor. Flygtåg - Flygtåg är ett tåg som transporterar personer från en tätort till en flygplats. I Sverige är det enda flygtåget Arlanda Express. Dessa klassas som kortdistanståg. Pendeltåg - Pendeltåg är ett tåg som oftast går korta sträckor lokalt och klassas som kortdistanståg i Trafikverket och Trafikanalys punktlighetsstatisik. Regionaltåg - Persontåg som avser att transportera resenärer regionalt. Regionaltåg är ett tåg som klassas som medeldistanståg i Trafikverket och Trafikanalys punktlighetsstatistik. ROS - Rådet för den officiella statistiken. Sammanvägt tillförlitlighetsmått (STM) - Andelen planerade persontåg, dagen innan avgång, som ankommit till sin slutstation högst fem minuter efter avsatt tid. Snabbtåg - Snabbtåg är ett tåg som transporterar personer längre sträckor med snabbare fart. Ett snabbtåg klassas som långdistanståg i Trafikverket och Trafikanalys punktlighetsstatistik. Tågsort - Persontåg delas in i tre tågsorter: kortdistanståg, medeldistanståg och långdistanståg. Klassningen av tågsort bestäms av respektive tågoperatör i samråd med Trafikverket och avser att avspegla såväl tågets transportuppgift som tekniska egenskaper (Lindberg och Norlin, 2018). Tågtyp - Olika sorters persontåg. Dessa delas in som pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg. Tåguppdrag - Ett planerat/framfört persontågs ID-nummer. Uppehåll - Antalet destinationer ett tåguppdrag haft. Vagn - Fordon utan framdrivningsutrustning.

12

13 1. Inledning 1.1 Bakgrund Trafikanalys publicerar officiell statistik för att erbjuda det svenska folket information, för till exempel forskning eller utredningsverksamhet. På Statistiska Centralbyråns hemsida förklaras begreppet Sveriges officiella statistik, där de förklarar att statistiken som skall presenteras ska vara objektiv, allmänt tillgänglig och vara försedd med beteckningen Sveriges officiella statistik. Det är regeringen som beslutar om vilka myndigheter som ansvarar för att presentera officiell statistik. Totalt finns det 28 myndigheter som har blivit utsedda till att presentera denna sorts statistik. Myndigheterna väljer metoder och vilken typ av statistik som ska framgå i rapporterna. Dokumenten presenteras sedan varje år den 31 mars till regeringen (SCB, 2018). En av dessa myndigheter som ansvarar för att ta fram officiell statistik är Trafikanalys. En av delarna i den officiella statistiken som Trafikanalys tillhandahåller är punktlighetsstatistik på Sveriges järnvägar. Den statistik som Trafikanalys publicerar har tagits fram med hjälp av Trafikverket. Informationen som läggs upp på Trafikanalys hemsida är rapporter, tabellverk och dokument. I nuläget finns dokumentationer för varje kvartal under år 2015, 2016, 2017 och I dokumenten finns det statistik om bland annat tågförseningar, sammanvägt tillförlitlighetsmått (STM) och hur många tåg som har blivit inställda (Lindberg och Norlin, 2018). Statistiken ska ge en tydligare bild över hur tågtrafiken har fungerat under det senaste kvartalet. I rapporterna som publiceras på Trafikanalys sorteras informationen utifrån de tre tågsorterna kortdistanståg, medeldistanståg och långdistanståg. Trafikanalys beskriver dessa tågsorter som: Kortdistanståg - Persontåg som avser att transportera resenärer lokalt. Tågen annonseras vanligtvis som pendeltåg eller flygtåg. Medeldistanståg - Persontåg som avser att transportera resenärer regionalt. Tågen annonseras vanligtvis som regionaltåg. Långdistanståg - Persontåg som avser att transportera resenärer interregionalt. Tågen annonseras vanligtvis som fjärrtåg, nattåg eller snabbtåg. 1

14 Inledning I tabell 1.1 visas ett exempel på hur Trafikanalys presenterar punktlighetsstatistik på järnvägar för tågsorterna kortdistanståg, medeldistanståg och långdistanståg. I tabellen visas den procentuella förseningen för de olika tågsorterna för år 2015, 2016 och Denna tabell innehåller fiktiva siffror och kolumnen Total procent är den totala procenten som alla tre tågsorter har varit försenad. Tabell 1.1: Exempel på punktlighetsstatistik som handlar om den procentuella förseningen. År Total procent Kortdistanståg Medeldistanståg Långdistanståg Trafikanalys och Trafikverket har inte utfört någon studie gällande tågindelningen som visas i tabell 1.1. Det betyder att indelningen för Tågsort är en subjektiv bedömning. 1.2 Syfte Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistanståg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågkategorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som hänger ihop med denna indelning. Syftet är även att undersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik Frågeställningar Fungerar den nuvarande indelningen av kortdistanståg, medeldistanståg och långdistanståg vid redovisning av officiell statistik för tåg? Vilka variabler hänger ihop med dagens tågindelning Går det att hitta någon bättre tågindelning för redovisning av officiell statistik? 2

15 Inledning 1.3 Uppdragsgivare Trafikverket skapades den första april 2010 när Banverket, Vägverket, Rikstrafiken och Rederinämnden slogs ihop. Trafikverket ansvarar över transportsystemet för järnvägstrafik, vägtrafik, sjöfart och luftfart. Utöver det ansvarar de även för underhållet av statliga vägar och järnvägar (Trafikverket, 2016). Trafikverket är en svensk statlig förvaltningsmyndighet som har cirka personer anställda. Huvudkontoret är beläget i Borlänge men regionkontor finns även i Luleå, Gävle, Stockholm, Eskilstuna, Göteborg och Kristianstad. 1.4 Etiska aspekter Denna studie baseras på ett datamaterial som innehåller information om persontåg inom Sveriges järnvägar (undantag gällande Roslagsbanan och Saltsjöbanan i Stockholm). I datamaterialet finns ingen information om hur många eller vem som köpt en tågresa hos vilket eller vilka företag. Detta gör att studiens resultat inte behöver hållas dold. 3

16 2. Data 2.1 Beskrivning av data Datamaterialet som används i uppsatsen innehåller information om tåguppdrag som planerades under vecka fyra mellan år 2014 till Denna vecka valdes slumpmässigt ut av Trafikverket. Datamaterialet har hämtats från Trafikverkets leveransuppföljningssystem. Det ursprungliga datamaterialet var ickekomprimerad data, det betyder att de sträckor tågen ska framföras har inte sammanställts från den första till den sista hållplatsen. Istället har samma tåguppdrag flera observationer, där det finns information om bland annat varje uppehåll tåget skall passera/stanna på och hur lång sträckan är emellan. I det ursprungliga datamaterialet fanns totalt tio stycken numeriska variabler, resterande 29 variabler innehöll information om bland annat datum, antal uppehåll, startdestinationer och slutdestinationer. Tabell 2.1: Variabelbeskrivning för variabler som används i uppsatsens analys. Variabel Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometrar Planerad km/h Planerad tågtid Tåglängd Tågsort Tågtyp Tågvikt Variabelbeskrivning Antalet dragfordon på persontåget Antalet hjulaxlar på persontåget Antalet vagnar på persontåget De antal kilometrar tåget planerades att åka Det genomsnittliga hastigheten (km/h) för det planerade tåguppdraget De antal minuter tåget planerats att framföra Längden på persontåget i meter Kortdistanståg, medeldistanståg och långdistanståg Pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg Tågets vikt, utan passagerare Variablerna som visas i tabell 2.1 är de variabler som använts för studiens resultat. Denna studie analyserar det komprimerade datamaterialet som bestod av tio stycken variabler. Tågsort och Planerade km/h har skapats från de ursprungliga variablerna. Efter att aggregeringen utförts återstod unika tåguppdrag. 4

17 Data 2.2 Responsvariabel Datamaterialet som använts i denna uppsats innehåller två nominala variabler, varav den ena nominala variabeln Tågsort är datamaterialets responsvariabel. Tågsort indikerar huruvida ett tåguppdrag klassats som ett kortdistanståg, medeldistanståg eller långdistanståg. Denna variabel har skapats från den ursprungliga variabeln Tågtyp. Variabelns uppbyggnad förklaras i tabell 2.2 nedan. Tabell 2.2: Förklaring av responsvaribeln Tågsort. Tågtyp Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Tågsort Kortdistanståg Kortdistanståg Medeldistanståg Långdistanståg Långdistanståg 2.3 Avgränsningar Datamaterialet innehåller enbart tåguppdrag mellan år 2014 till 2017 under vecka fyra och denna vecka är slumpmässigt utvald av Trafikverket. I det ursprungliga datamaterialet förekom variabler om planerade tåguppdrag och hur de planerade tåguppdragen framfördes. I figur 2.1 visas korrelationen mellan de planerade variablerna och de framförda. Eftersom dessa variabler korrelerar högt med varandra innebär det att tågtiden och tågkilometrarna som planerades överensstämmer med de tåg som framfördes. Figur 2.1: Korrelation mellan framförda variabler och planerade variabler. 5

18 Data Eftersom variablerna i figur 2.1 visar ungefär samma information kommer bara information om de planerade variablerna eller det framförda variablerna att väljas. På grund av att variabeln Framförd tågtid innehöll ofullständiga rader i datamaterialet, valdes det att använda de planerade variablerna istället för de framförda. Figur 2.2: Andelen tåguppdrag som planerats mellan år 2014 till 2017 under vecka fyra. Det som visualiseras i figur 2.2 är att det förekommer en jämn andel planerade tåguppdrag under vardagarna, under helgerna planerades inte en lika stor andel tåguppdrag. Eftersom fördelningen inte överensstämmer mellan vardagar och helger har författarna av studien valt att enbart fokusera på tåguppdrag som planerades under vardagar. 2.4 Databearbetning Aggregering Eftersom det ursprungliga datamaterialet var ett ickekomprimerat datamaterial har aggregering varit nödvändigt för studien. Datamaterialet har aggregerats utifrån tåguppdragets startdatum. Det aggregerade datamaterialet består av sammanfattad information från tåguppdragets alla uppehåll. De variabler som existerade i det aggregerade datamaterialet visas i tabell 2.1. Variablerna Antalet 6

19 Data dragfordon, Antalet hjulaxlar och Antalet vagnar tolkas som diskreta variabler innan aggregering. Efter att aggregering utförts har dessa varit medelvärdet för hela tåguppdraget. Det innebär ifall ett tåg tillsätter en vagn på en hållplats kommer inte medelvärdet bli diskret. Tabell 2.3: Exempel på ett icke-komprimerat datamaterial, fiktiva siffror. Tåguppdrag Startdatum Datum Planerad tågtid Planerade tågkilometer I tabell 2.3 visas ett exempel på två ickekomprimerade tåguppdrag. Tåguppdrag ett har tre stycken rader och tåguppdrag två har två stycken rader. Aggregeringen utfördes utifrån variabeln Startdatum. Det gjordes på grund av att nattåg kan annars sammanfogas som två tåguppdrag istället för ett. Tabell 2.4: Exempel på ett komprimerat datamaterial, fiktiva siffror. Tåguppdrag Planerad tågtid Planerade tågkilometer I tabell 2.4 visar hur exemplet i tabell 2.3 blivit efter aggregeringen utförts Variabelbearbetning Utifrån det ursprungliga datamaterialet har två stycken nya variabler skapats. Dessa variabler är Planerade km/h och Tågsort. Variabeln Planerade km/h beräknas utifrån formel 2.1. Planerad km/h = Planerade tågkilometrar Planerad tågtid/60 (2.1) Variabeln Planerad km/h är den genomsnittliga hastigheten för hela tåguppdraget. Det innebär tågets framförda genomsnittshastighet från startdestination till slutdestination. Variabeln Tågsort har skapats från variabeln Tågtyp. Denna variabel förklaras i tabell 2.2. Indelningen av Tågsort har utgått ifrån dokument som finns tillgängliga på Trafikanalys hemsida (Lindberg och Norin, 2018). 7

20 Data 2.5 Bortfall Det ickekomprimerade datamaterialet efter rensning av data från helger innehöll observationer, utöver det var inte alla rader kompletta för de utvalda variablerna (se tabell 2.1 för mer information om variablerna). Därför valdes det att exkludera de ickekompletta raderna för att uppnå likvärdighet i datamaterialet. Efter denna rensning återstod observationer. Det innebar att observationer klassades som bortfall. De ickekompletta raderna beror på planerade tåg har blivit inställda och därmed saknat information om vilken Tågsort de tillhört. Eftersom antalet observationer som saknade data var litet, rensades dessa observationer bort från studien. 8

21 3. Metod 3.1 Klassificeringsmetoder I detta kapitel kommer metoderna beslutsträd och neurala nätverk att presenteras. Dessa metoder har används för att studera möjligheten att klassificera in de olika tåguppdragen till ett kortdistanståg, medeldistanståg eller långdistanståg. För att förstärka tillförlitligheten av analysen användes två olika klassificeringsmetoder parallellt. Beslutsträd och neurala nätverk används för att klassificera observationer till dess kända responsvariabel med hjälp av övriga befintliga variabler. Nedan visas två studier för att förstärka valet av dessa metoder. S. Sarikan, Murat Ozbayoglu och Zilci (2017) använde sig av beslutsträd för att klassificera två olika fordonstyper. De fordonstyper som studerades var bilar och motorcyklar. Datamaterialet som användes i denna studie utgick från bilder på de olika fordonstyperna. Resultatet för studien visade att beslutsträdet kunde klassificera bilarna och motorcyklarna till rätt fordonstyp. I en annan studie har Chen m. fl. (2017) använt sig av neurala nätverk för att klassificera tre olika modeller av bilar. Modellerna som studerades var sedan, minibuss och SUV. Datamaterialet som användes i denna studie utgick även det från bilder på de olika bilmodellerna. Resultatet i studien visade att metoden neurala nätverk kunde klassificera de olika bilmodellerna med en ackuratess på cirka 98 procent. Uppsatsens studie hämtar inte data från bilder, dock stärks valet av metoder eftersom båda visade på goda resultat. Beslutsträd och neurala nätverk kommer att användas för att besvara studiens frågeställning om den nuvarande indelningen av tågsorter fungerar vid redovisning av offentlig statistik. Beslutsträd används även för att besvara studiens andra frågeställning om vilka variabler som hänger ihop med dagens tågindelning. När en modellering utförs för beslutsträd och neurala nätverk delas datamaterialet slumpmässigt in i tre mängder träningsmängd, valideringsmängd och testmängd. Träningsmängden är den del av datamaterialet som förbereds för att klassificera in rätt observation till rätt responsklass. För att klassificeringen inte skall överanpassas, används en datamängd som kallas för valideringsmängd och den hjälper träningsmängden vid modellering. Slutligen skall modellen som är konstruerad av både träningsmängden och valdieringsmängden testas, till detta används test- 9

22 Metod mängden. För att hitta rätt storlekar på de olika mängderna utförs flertalet tester för att inte klassificeringsmetoderna skall överanpassas, men ändå få en hög ackuratess. I denna studie visade de sig att den bästa klassificeringen för både beslutsträd och neurala nätverk var när träningsmängden bestod av 60 procent av datamaterialet, 20 procent är valideringsmängden och resterande 20 procent är testmängden Beslutsträd En av uppsatsens metoder är beslutsträd och det är en teknik som används inom data mining. Metoden är populär att använda vid klassificering, eftersom den är lätt att förstå och analysera. Några av fördelarna med att använda metoden är att starkt korrelerade variabler inte kommer att påverka resultatet och att den är robust mot brus. Ett beslutsträds process vid klassificering kan beskrivas att datamängden delas upp till mindre och mindre grupper, där målet med grupperna är att de ska bli så lika varandra som möjligt och ingå i samma klass. Figur 3.1: Exempel på ett beslutsträds uppbyggnad. 10

23 Metod I figur 3.1 illustreras ett exempel på hur ett beslutsträd ser ut med en nominal responsvariabel med tre klasser. Högst upp i trädet finns en rotnod, utifrån den skapas en regel som bestämmer vägen till antingen lövnoder som avslutar förgreningen, eller till nya noder som fortsätter att sätta upp nya regler tills att trädet nått komplett struktur. Varje observation i modellen klassificeras sedan till den regel som observationen tillhör. När ett beslutsträd är komplett, menas det att förgreningen av trädet avtar och att det avslutats med lövnoder. I figur 3.1 har beslutsträdet nått en komplett struktur. Ett beslutsträd kan ibland avslutas tidigare än förväntat och det kan ske när ett träd nått sitt maximala djup eller när en förgrening blivit klar tidigare än förväntat. Ett maximalt djup sätts för att modellen för beslutsträdet inte ska bli överanpassat. Inom metoden beslutsträd finns det olika föroreningsmått. Förorening sker när observationer med olika klasser hamnat i samma nod. Därför används föroreningsmått för att minska att observationer med olika klass hamnar inom samma nod. De föroreningsmått som kommer användas i denna studie är Entropi och Gini. Dessa föroreningsmått visas i formel 3.1 och formel 3.2. c Entropi(t) = p(h t) log 2 p(h t) (3.1) h=1 c Gini(t) = 1 [p(h t)] 2 (3.2) h=1 där p(h t) är andelen observationer som tillhör klass h för given nod t, c är antalet klasser och log 2 är logaritmen med bas 2 (Tan, Steinbach och Kumar, 2006). När ett beslutsträds algoritm väljer ut en regel för trädets förgrening görs det genom att ett obegränsat antal regler uppstår. Utifrån dessa regler väljs sedan den regel med högst informationsvinst ut. Informationsvinsten,, visas i formel 3.3. = I(förälder) k f=1 N(v f ) N I(v f) (3.3) där I(.) är föroreningsmåttet för en given nod, N är antalet observationer i föräldranoden, k är antalet attributvärden och N(v f ) är antalet observationer i barnnoden, v f. Föräldranoden är den nod som finns innan den skapade noden. Beslutsträd beskrivs i boken (Tan, Steinbach och Kumar, 2006). 11

24 Metod Variablers betydelse för beslutsträd Variable importance är ett mått som kan användas inom beslutsträd för att ta reda på hur mycket betydelse olika variabler har haft för skapandet av trädet. Importance-måttet ligger mellan 0 och 1. Ett värde nära 1 är en variabel som haft stor betydelse och ett värde nära 0 är en variabel som haft lite betydelse för trädet. Enligt de Ville (2006) beräknas importance-måttet genom att studera trädets splittrade noders och lövnoders beslutsregler. Ifall en variabel är viktig för en splittring kommer denna variabel ha ett högt importance-mått. För de variabler som har betydelse för många av trädets nivåer, kommer variabelns importancemått att öka. Dock innebär det inte att de variabler som har betydelse för många splittringar behöver ha det högsta importance-måttet. De variabler som inte förekommer i någon av trädets regler har ingen betydelse alls, därmed värdet 0. För att beräkna variable importance i ett beslutsträd används SSE (summan av avvikelserna mellan observation och modell). Måttet SSE beräknas som Gini multiplicerat med antalet observationer i noden. Variable importance beräknas för varje använd variabel efter att trädet har tränats klart. Den används för att bedöma vilka variabler som är viktigast för responsvariabeln och är relaterad till den totala minskningen i SSE som användandet av variabeln bidrar till. Metoden variable importance beskrivs i (SAS Institute Inc., 2013) Neurala nätverk Neurala nätverk är en klassificeringsmetod eller regressionsmetod. I denna stuide används neurala nätverk som en klassificeringsmetod. Neurala nätverk kan användas för datamaterial med variabler med skalorna intervall, binär, nominal eller ordinal. Metoden är även den teknik som beskrivs som en av de mest avancerade teknikerna inom data mining. Klassificeringsmetoden neurala nätverk letar efter mönster i en del av datamaterialet som sedan kan tillämpas på en del eller hela datamaterialet (Hastie, Tibshirani och Friedman, 2001). Neurala nätverk är en prediktiv metod som baseras på en mängd inmatade uppgifter som genererar utmatade uppgifter, även kallat för inputlager och outputlager (se figur 3.2). Dessa lager är sammankopplade i det neurala nätverket och mellan dessa lager kan det finnas ett eller flera gömda lager. 12

25 Metod Figur 3.2: Ett neuralt nätverk med Q stycken noder i outputlagret och med M stycken noder i det gömda lagret. Outputlagrets noder används för att klassificera det mönster som datamaterialets responsvariabel har, i denna studies fall en nominal responsvariabel. Mellan inputlagret (X 1,..., X p ) och outputlagret (Y 1,..., Y Q ), finns ett gömt lager (Z 1,..., Z M ) som innehåller de gömda noderna (figur 3.2). Anledningen till varför de kallas gömda noder är för att de inte har någon koppling till omgivningen. De gömda lagrets noder kan liknas vid linjärkombinationer av inputlagrets noder (Hastie, Tibshirani och Friedman, 2001). Nedan visas formel 3.4 för neurala nätverk. Z m = σ(α 0m + α mx), m = 1,..., M V q = β 0q + β qz, q = 1,..., Q Y q = g q (V ), q = 1,..., Q (3.4) där Z = (Z 1, Z 2,..., Z M ) och V = (V 1, V 2,..., V Q ), σ och g är aktiveringsfunktioner, α 0m och β 0q är bias och α am och β bq är vikten av kopplingarna. För att skatta vikterna används bakåtpropagering. Algoritmen startar med slumpmässiga startvikter, där antalet startvikter som undersöks är antalet preliminära körningar som tillåts. Startvikterna som ger den lägsta felfunktionen itereras sedan vidare tills att konvergens uppnås. När ett neuralt nätverk framställs så letar algoritmen efter det nätverk som minimerar felfunktionen. Det innebär att ett globalt minimum är målet för nätverket, det går dock inte att veta om det är ett globalt minimum som har hittats. För denna uppsats har felfunktionen multipel Bernoulli-funktion valt att användas. Den multipla Bernoulli-funktionen rekommenderas att använda vid antingen nominal eller ordinal responsvariabel. Funktionen använder sig av målklassernas vektorer och nätverkets output-värden (Chow m. fl., 1994). 13

26 Metod I det gömda lagret och outputlagret används Softmax som aktiveringsfunktion. Det är aktiveringsfunktionen som avgör hur nodens output kommer att se ut. Softmax passar bra att använda när responsvariabeln för ett datamaterial är nominal eller binär. Aktiveringsfunktionen Softmax visas i formel 3.5 (Hastie, Tibshirani och Friedman, 2001). Softmax = g q (V ) = evq Q l=1 ev l (3.5) där V finns i formel 3.4, l är index för output-värdena, så l = 1,..., Q och e är exponentialfunktionen. För metoden neurala nätverk kan olika antal gömda lager användas. I denna studie har ett gömt lager använts för att minimera risken för överanpassning och en allt för komplex modell. Det är även bra att pröva flera olika antal noder i det gömda lagret. Det för att kunna jämföra modellernas resultat. 3.2 Ackuratess och felkvot För de båda klassificeringsmetoderna som använts i studien kommer måttet ackuratess att beräknas. Ackuratessen beräknar hur stor andel av observationerna i datamaterialet som klassificerats rätt och felkvot är andelen observationer som klassificerats fel. Ett högt värde på ackuratessen innebär en bättre klassificering (Tan, Steinbach och Kumar, 2006). F elkvot = F P (3.6) där F är hur stort antal av observationerna som klassificerats fel och P är totala antalet prediktioner. Ackuratess = T P = 1 F elkvot (3.7) där T är hur stort antal av observationerna som klassificerats rätt och P är totala antalet prediktioner. I studiens resultat kommer ackuratessen multipliceras med 100 för att kunna tolka resultatet i procent. 14

27 Metod 3.3 Hierarkisk klustring Metoden hierarkisk klustring används i denna studie för att studera ifall det finns någon bättre tåggruppering än dagens indelning kortdistanståg, medeldistanståg och långdistanståg. I en studie om affärsmodeller för svenska kreditinstitut har de undersökt ifall de finns likheter i affärsmodeller för svenska kreditinstitut och för svenska filialer av utländsk bank. Deras studie syftar till att hitta företagskluster för liknande affärsmodeller för kreditinstitut. Denna studie använder sig av hierarkisk klustring med Ward s länkningsmetod (Cronqvist och Smed, 2016). I studien fungerade deras val av metod. Därmed stärker denna studie att hierarkisk klustring med Ward s länkningsmetod kan användas för att studera olika sorters grupper. Metoden hanterar alla unika observationer som egna kluster i början. Sedan grupperas dessa med hjälp av en vald länkningsmetod. Den valda länkningsmetoden binder ihop observationer till grupper och detta repeteras tills att bara en grupp återstår. Hur klustren bildas beror på länkningsmetod. För att dessa skall kunna bindas ihop måste en olikhetsmatris beräknas. I olikhetsmatrisen beräknas ett avstånd mellan alla observationer/kluster för att se vilka som skall bindas tillsammans Olikhetsmatris Olikhetsmatrisen är en m m matris som innehåller avståndet mellan de kluster som skapats från föregående iteration. Första olikhetsmatrisen innehåller avståndet mellan alla unika observationer. Denna information används sedan för att nästa upprepning ska kunna genomföras med hjälp av en länkningsmetod. För att kunna beräkna en olikhetsmatris måste ett avstånd mellan de olika klustren uppskattas. Tabell 3.1: Exempel på olikhetsmatris, fiktiva siffror Kluster A B C A B C I tabell 3.1 visas ett exempel med fiktiva siffror på hur en olikhetsmatris kan se ut. I det här fallet visas det att det längsta avståndet är mellan kluster A och B medan det kortaste avståndet är mellan kluster B och C. 15

28 Metod Avståndsmått I hierarkisk klustring används avståndsmått för att räkna ut avstånden i olikhetsmatrisen. I denna uppsats har euklidiskt avstånd använts. Detta beror på att datamaterialet som används innehöll enbart kontinuerliga variabler. Euklidiskt avstånd Euklidiskt avstånd är sträckan som är kortast mellan de olika observationerna, därför kallas detta avstånd ibland för fågelvägen. d ij = (x i1 x j1 ) (x ip x jp ) 2 (3.8) där d ij är avståndet mellan observationerna i och j, x är variabler, p är antalet variabler, det vill säga antalet dimensioner i det euklidiska rummet. Detta avståndsmått beskrivs i boken (Manly, 2004) Länkningsmetoder De vanligaste länkningsmetoderna är närmaste grannen (single link), yttersta grannen (complete link), genomsnittslänkning (group average) och Ward s. Nedan kommer dessa länkningsmetoder förklaras. Närmaste grannen (Single link) Denna metod utgår ifrån kortaste avståndet i olikhetsmatrisen. Det innebär att denna länkar samman de kluster som är närmast varandra i olikhetsmatrisen. Metoden använder alla observationer utan att ta hänsyn till uteliggare. Det gör att resultatet från denna metod kan påverkas utav dem. Figur 3.3: Exempel på single link. 16

29 Metod I figur 3.3 visas det visuellt hur denna metod arbetar. De två cirklar som visas i figuren är kluster medan prickarna inuti är observationer. I detta fall kommer dessa två kluster bindas ihop. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006). Yttersta granne (Complete link) Länkningsmetoden yttersta granne (complete link) använder sig av de maximala avståndet istället för det minimala avståndet i olikhetsmatrisen. Efter alla maximala avstånd är beräknade kommer de två kluster som har de kortaste maximala avståndet länkas tillsammans. I figur 3.4 visas ett exempel på hur denna metod fungerar. De två heldragna cirklarna är redan skapade kluster medan prickarna är observationer. I detta fall kommer de två klusteren med kortast maximala avstånd länkas ihop, det illustreras med streckad cirkel. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006). Figur 3.4: Exempel på complete link. Genomsnittslänkning (Group Average) Genomsnittslänkning är en länkningsmetod som beräknar medelavståndet mellan alla observationer i ett kluster till alla observationer i ett annat kluster. När medelavståndet är beräknat mellan alla kluster länkas de två kluster med det kortaste medelavståndet ihop. I figur 3.5 visas ett exempel på hur metoden fungerar. Cirklarna symboliserar kluster medan punkterna visar observationer. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006). 17

30 Metod Figur 3.5: Exempel på group average. Ward s länkningsmetod Ward s länkningsmetod beräknar avståndet mellan de olika klusterna genom att studera kvadratfelet inom klustret om de skulle slås samman. Det betyder att den söker den sammanslagning som skulle innebära minst påverkan på variansen inom klustret. Metoden använder sig av kvadratfelet inom klustret istället för distanser mellan observationer, därför skiljer sig denna metod åt jämfört med närmaste grannen, yttersta grannen och genomsnittslänkning. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006) Dendrogram Dendrogram är ett visuellt verktyg som används när hierarkisk klustring tillämpas. Dendrogram visar avståndet mellan klustrena när de sammanfogas på den lodräta axeln och observationsnumreringen visas på den vågräta axeln. Verktyget används för att studera hur många kluster som är lämpligt att analysera. Tolkningen av ett dendrogram är subjektiv. Det innebär att antalet kluster beror på betraktaren. Dock brukar den generella bedömningen ligga i att studera var den största uppdelningen längs den lodräta axeln är. Figur 3.6: Exempel på ett dendrogram. 18

31 Metod I figur 3.6 visas ett exempel på hur ett dendrogram kan se ut. Utifrån figur 3.6 kan tre streckade linjer visualiseras. Dessa tre streckade linjer korsar två, tre och fyra lodräta linjer. Antalet korsade linjer visar antalet kluster som förslagsvis bör analyseras i detta fall. Det innebär två, tre eller fyra kluster bör studeras. Steg i en hierarkisk klustring I punktlistan presenteras de olika stegen som utförs i hierarkisk klustring. 1: Välj variabler som är intressanta för studien. 2: Standardisera dessa. 3: Beräkna en olikhetsmatris. 4: Länka ihop kluster med hjälp av angiven länkningsmetod. 5: Uppdatera olikhetsmatrisen för att återspegla närheten mellan det nya klustren som skapats. 6: Repetera: Steg 4 och 5. Tills: Bara ett kluster kvarstår. 7: Konstruera dendrogram för att visualisera antalet kluster som bör analyseras. 8: Välj antalet kluster med hjälp av dendrogram. 3.4 Standardisering Standardisering har utförts på studiens datamaterial för att förklaringsvariablerna har haft olika skalor. Metoder som använt standardisering är beslutsträd, neurala nätverk och hierarkisk klustring. För att en variabel ska kunna standardiseras måste den vara numerisk. Efter en standardisering kommer medelvärdet bli noll och standardavvikelsen ett. De nya värdena för variabeln visar hur pass långt ifrån de ligger det förväntade värdet. Är värdet negativt ligger det under det förväntande värdet och tvärtom för ett positivt värde. I formeln 3.9 visas det att den standardiserade variabeln u för observation i, blir det nya värdet för u Ny. u Ny = u i ū s (3.9) u i är observationen som ska standardiseras, ū är medelvärdet för fördelningen av u, s är standardavvikelsen för u. 19

32 Metod 3.5 Programvaror I uppsatsen har följande statistiska programvaror använts: SAS Skapandet av hierarkisk klustring. SAS Enterprise Miner Skapandet av beslutsträd och neurala nätverk. R Studio - Användes för databearbetning och beskrivande statistik. 20

33 4. Resultat och analys Första delen av detta kapitel behandlar beskrivande statistik för de planerade tågtyperna. I senare delkapitel presenteras resultaten från metoderna beslutsträd, neurala nätverk och hierarkisk klustring. 4.1 Beskrivande statistik Histogram över förklaringsvariablerna Variablerna som presenterades i tabell 2.1 i kapitel 2.1 kommer att visualiseras med hjälp av histogram. Variablerna Tågsort och Tågtyp kommer inte att presenteras med histogram och det beror på att dessa variabler är kategoriska. Figur 4.1: Histogram som visar fördelningen för variabeln Antalet dragfordon. I figur 4.1 befinner sig den största andelen Antal dragfordon vid värdet ett, det innebär att de flesta planerade tågen i datamaterialet har ett dragfordon under hela resans gång. Det finns även några observationer i figur 4.1 som ligger mellan 4 till 7 dragfordon. 21

34 Resultat och analys Figur 4.2: Histogram som visar fördelningen för variabeln Antalet hjulaxlar. Den största andelen hjulaxlar som visas i figur 4.2 har cirka tio stycken hjulaxlar, det är ungefär 40 procent av alla tåguppdrag i datamaterialet som har tio hjulaxlar under hela tåguppdragets resa. Alla tåguppdrag har mellan 0 till 50 hjulaxlar. Det är mellan 10 till 15 procent som har 15 till 30 stycken hjulaxlar. Figur 4.3: Histogram som visar fördelningen för variabeln Antalet vagnar. I figur 4.3 visas det att de flesta tåguppdrag, över 90 procent, har inga vangar. Det finns dock några observationer mellan tre till nio stycken vagnar. 22

35 Resultat och analys Figur 4.4: Histogram som visar fördelningen för variabeln Planerade kilometrar. I figur 4.4 visas fördelningen för variabeln Planerade tågkilometrar. Den största andelen visas omkring 120 kilometer. Denna variabel har dock några observationer som ligger vid 750 kilometer. Figur 4.5: Histogram som visar fördelningen för variabeln Planerad km/h. Ett planerat tåg kör i genomsnitt mellan 50 km/h till drygt 160 km/h. Detta visas i figur 4.5. Den största andelen tåguppdrag kör dock mellan 60 km/h till 120 km/h. 23

36 Resultat och analys Figur 4.6: Histogram som visar fördelningen för variabeln Planerad tågtid. Omkring 100 minuter är den vanligaste planerade tågtiden för ett planerat tåguppdrag i datamaterialet. Det visas i figur 4.6. Dock finns några få observationer som ligger på cirka 500 minuter. Figur 4.7: Histogram som visar fördelningen för variabeln Tåglängd. I figur 4.7 visas det att den största andelen planerade tåg är drygt 75 meter långa. Det finns några få observationer som ligger på ungefär 400 meter. 24

37 Resultat och analys Figur 4.8: Histogram som visar fördelningen för variabeln Tågvikt. Det flesta planerade tåg i datamaterialet är drygt 150 ton till 220 ton tunga. I figur 4.8 visas fördelningen för hur tung de olika persontågen är inom datamaterialet. Det finns några få planerade tåg som är drygt 700 ton Andelen tågsorter som planerades I tabell 4.1 visas den totala andelen tågsorter som planerades. Tabell 4.1: Andelen tågsorter som planerades mellan år 2014 till 2017 vecka fyra. Kortdistanståg Medeldistanståg Långdistanståg Totalt 50.3 % 42.2 % 7.5 % Enligt tabell 4.1 består cirka 50 procent av datamaterialet av kortdistanståg. Även medeldistanstågen har en stor andel tåguppdrag på cirka 42 procent, medan långdistanstågen enbart har en andel på cirka åtta procent Andelen tågtyper som planerades I tabell 4.2 visas andelen för tågtyperna pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg som planerades. 25

38 Resultat och analys Tabell 4.2: Andelen tågtyper som planerades mellan år 2014 till 2017 vecka fyra. Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Totalt 44.4 % 5.9 % 42.2 % 3.1 % 4.4 % Den största andelen tågtyper som planerades är pendeltåg och regionaltåg. Minsta andelen planerade tåg är fjärrtågen på drygt tre procent Pendeltåg Tabell 4.3: Beskrivande statistik för pendeltåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Ett pendeltåg kör i snitt 6.7 mil med en tid på drygt 58.6 minuter från första till sista station. Medelhastigheten ligger på drygt 71.4 kilometer i timmen. Det minsta ett pendeltåg kör är 6.4 kilometer och den maximala sträckan är drygt 20 mil. Topphastigheten för ett planerat pendeltåg är 130 kilometer i timmen. Ett pendeltåg är som längst 240 meter och som minst fem meter Flygtåg Tabell 4.4: Beskrivande statistik för flygtåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Ett flygtåg har en medelsträcka på 3.9 mil med en planerad genomsnittstid på 20 minuter. Flygtågets medelhastighet är 118 kilometer i timmen. Den planerade maxhastigheten är dock 147 km/h. Ett flygtåg är varken större eller mindre än 93 meter. 26

39 Resultat och analys Regionaltåg Tabell 4.5: Beskrivande statistik för regionaltåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Regionaltågets medeldistans är cirka 14 mil medan den längsta sträckan som planerats är 61 mil. Den genomsnittliga hastigheten på ett regionaltåg är drygt 90 kilometer i timmen. Ett regionaltåg är som längst 556 meter och som minst 32 meter Fjärrtåg Tabell 4.6: Beskrivande statistik för fjärrtåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Fjärrtåget längsta planerade sträcka är 152 mil medan kortaste är 1.7 kilometer. Dock brukar medelavstånden vara ungefär 38 mil. Ett fjärrtåg har en medelhastighet på 95 kilometer i timmen. Ett fjärrtåg är som längst 430 meter och som minst 55 meter Snabbtåg Tabell 4.7: Beskrivande statistik för snabbtåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Ett snabbtåg har en medelhastighet på 127 km/h och har en medeldistans på drygt 45 mil. Den längsta sträckan ett snabbtåg planeras att köra är cirka 76 mil medan 27

40 Resultat och analys de kortaste är 2.2 mil. Ett snabbtåg är som längst 330 meter och som minst 106 meter. 4.2 Klassificering I detta kapitel kommer resultatet för beslutsträd och neurala nätverk att presenteras. De båda metoderna har använt ett standardiserat datamaterial. Samtliga variabler som finns i tabell 2.1 har använts förutom variabeln Tågtyp. Det beror på att Tågsort skapades utifrån denna variabel och är responsvariabeln för klassificeringsmetoderna Beslutsträd Beslutsträdet som skapats har provat flera olika djup, men det träd som gav bäst resultat och inte blev överanpassat var ett djup på tre och en splittring på tre, då responsvariabeln Tågsort har tre klasser. Föroreningsmåttet som användes för beslutsträdet var Gini då det gav lägst felkvot av de två föroreningsmåtten. Det fullständiga beslutsträdet går att betrakta i bilaga 6.1. Tabell 4.8: Ackuratess och felkvot för beslutsträdet. Felkvot Ackuratess 7.49 % % Tabell 4.8 visar att procent av tåguppdragen har klassificerats till rätt Tågsort med hjälp av beslutsträdet. Felkvoten i tabell 4.8 ligger på 7.49 procent vilket tyder på att 7.49 procent av tåguppdragen har klassificerats till fel Tågsort. En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell 4.9. Tabell 4.9: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för beslutsträdet. Sanna Tågsort Kortdistanståg Medeldistanståg Långdistanståg Predikterade Kortdistanståg % 2.09 % 0.00 % Medeldistanståg 7.03 % % 6.64 % Långdistanståg 0.29 % 6.16 % % 28

41 Resultat och analys I tabell 4.9 har cirka 92.7 procent kortdistanståg, cirka 91.6 procent medeldistanståg och cirka 93.4 procent långdistanståg predikterats rätt. Cirka 0.3 procent långdistanståg har predikterats som kortdistanståg och cirka sju procent medeldistanståg har predikterats som kortdistanståg. Inget kortdistanståg har predikterats till ett långdistanståg och cirka 6.6 procent medeldistanståg har predikterats som långdistanståg. Utifrån tabell 4.8 och tabell 4.9 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av förklaringsvariablerna. Tabell 4.10: Variable importance för Tågsort Variabler Antal uppdelade regler Importance Tåglängd Planerade tågkilometrar Planerad km/h Planerad tågtid Antal dragfordon Antal vagnar Antal hjulaxlar Tågvikt I tabell 4.10 visas vilka variabler som har haft betydelse för klassificeringen av Tågsort. Den variabel som har högst importance i tabell 4.10 är Tåglängd. Planerade tågkilometrar och Planerad km/h har också haft stor betydelse för beslutsträdet, men även variabeln Planerad tågtid har haft lite betydelse. De variabler som inte haft någon betydelse alls för beslutsträdets klassificering var Antal dragfordon, Antal vagnar, Antal hjulaxlar och Tågvikt Neurala nätverk När neurala nätverk skapas anges alltid hur många noder nätverket ska innehålla och antalet gömda lager. För studiens neurala nätverk användes ett gömt lager, det för att inte få en allt för komplex modell. Det har prövats att använda flera olika antal noder (mellan fyra till nio stycken noder) i det gömda lagret för att få fram det bästa neurala nätverket och det bästa antalet noder var fem. Tabell 4.11: Felkvot och ackuratess för neurala nätverket. Felkvot Ackuratess % % Tabell 4.11 visar att totalt 88 procent av tåguppdragen har klassificerats till rätt Tågsort med hjälp av det neurala nätverket. Felkvoten i tabell 4.11 ligger på 12 29

42 Resultat och analys procent vilket tyder på att 12 procent av tåguppdragen har klassificerats till fel Tågsort. En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell Tabell 4.12: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för neurala nätverket. Sanna Tågsort Kortdistanståg Medeldistanståg Långdistanståg Predikterade Kortdistanståg % 8.77 % 0.00 % Medeldistanståg 9.46 % % % Långdistanståg 0.43 % 5.27 % % I tabell 4.12 har cirka 90.1 procent kortdistanståg, cirka 86 procent medeldistanståg och 85.6 procent långdistanståg predikterats till rätt Tågsort. Cirka 0.4 procent långdistanståg har predikterats som kortdistanståg och cirka 9.5 procent medeldistanståg har predikterats som kortdistanståg. Dock har cirka 8.8 procent kortdistanståg predikterats som medeldistanståg och cirka 5.3 procent långdistanståg har predikterats som medeldistanståg. Inget kortdistanståg har predikterats till ett långdistanståg och 14.4 procent medeldistanståg har predikterats som långdistanståg. Utifrån tabell 4.11 och tabell 4.12 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av förklaringsvariablerna. 4.3 Hierarkisk klustring I detta kapitel kommer resultat av hierarkisk klustring presenteras. Hierarkisk klustring används för att undersöka ifall en bättre fördelning av tåguppdrag kategoriseras när en oövervakad inlärning används, samt studera ifall liknelser mellan dess indelning och dagens tåggruppering tågsort existerar. För att studera ifall en bättre indelning existerar visas fördelningen i de olika klustren av variabeln Tågtyp, ifall en ny lätthanterlig indelning av Tågtyp existerar anser författarna att en objektivt bättre fördelning är hittad. Samtliga variabler som finns i tabell 2.1 har använts i klustringen förutom variabeln Tågtyp och Tågsort. I resultatet har Ward s länkningsmetod anpassats. Denna metod gav en bättre uppdelning jämfört med metoderna närmaste grannen (single link), yttersta granne (complete link), genomsnittslänkning (group Average). De andra metoderna aggregerade ihop datamaterialet till ett stort kluster, jämfört med länkningsme- 30

43 Resultat och analys toden Ward s som gav en uppdelning på tre kluster som visas i figur 4.9. Därför valdes det att studera resultatet från länkningsmetoden Ward s i denna studie. Figur 4.9: Dendrogram för hierarkisk klustring. I figur 4.9 visas dendrogrammet för den hierarkiska klustringen. Dendrogrammet visar en uppdelning av datamaterialet på två, tre eller fyra grupper. Utifrån denna visualisering valdes det att studera tre kluster. Detta berodde på att författarna ansåg att det var den tydligaste uppdelningen men också för att jämföra likheter och olikheter mellan dagens tågindelning och den nya gruppering som visas i resultatet i detta kapitel. Dock visas fördelningen av två och fyra kluster för både Tågsort och Tågtyp i bilaga (se 6.1, 6.2, 6.3 och 6.4). I tabellerna 4.13, 4.14 och 4.15 visas information om de olika klustren. Informationen som framgår i tabellerna är antalet tåguppdrag i klustren, det standardiserade medelvärdet, standardavvikelsen, minimala värdet och det maximala värdet för de förklarande variablerna. 31

44 Resultat och analys Tabell 4.13: Hierarkisk klustring, kluster 1. N Medelvärde Std Min Max Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometer Planerad km/h Planerad tågtid Tåglängd Tågvikt I tabell 4.13 visas det att de unika tåguppdrag har klassats i kluster ett. Dessa tåguppdrag har fler dragfordon och hjulaxlar, kör länge sträckor, är tyngre och är längre än det genomsnittliga tåguppdraget. Det visas för att dessa variabler har ett positivt medelvärde. De variabler som har ett negativt medelvärde är variablerna Antalet vagnar och Planerad km/h. Det innebär att tåguppdragen som klassats i detta kluster har färre antal vagnar och kör långsammare än det genomsnittliga tåguppdraget. Tabell 4.14: Hierarkisk klustring, kluster 2. N Medelvärde Std Min Max Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometer Planerad km/h Planerad tågtid Tåglängd Tågvikt Tabell 4.14 visar information om kluster två. I detta kluster har unika tåguppdrag placerats. Alla medelvärden är negativa förutom ett, det medelvärde som är positivt är Planerad km/h, värdet för denna är Detta värde är nära noll, det innebär att tåguppdragen i kluster två har en planerad medelhastighet som liknar det allmänna medelvärdet för det unika tåguppdragen som analyserats i denna studie. 32

45 Resultat och analys Tabell 4.15: Hierarkisk klustring, kluster 3. N Medelvärde Std Min Max Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometer Planerad km/h Planerad tågtid Tåglängd Tågvikt I tabell 4.15 visas det tredje klustret. Antalet tåguppdrag i detta kluster är stycken. Ett medelvärde är negativt och det är för variabeln Antalet dragfordon. Detta värde är 0.092, när denna siffra är nära noll innebär det att medelvärdet för tåguppdragen i kluster tre har nästan lika många dragfordon som det genomsnittliga tåguppdraget. Alla andra variabler är större än noll det innebär att tåget har ett högre medelvärde på dessa variabler. Variabeln Antalet vagnar visar att det är mycket fler vagnar på de tåguppdrag som ligger i detta kluster jämfört med kluster ett och två. Tabell 4.16: Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Kortdistanståg Medeldistanståg Långdistanståg Total Kluster % 14.6 % 3.4 % 38.3 % Kluster % 23.2 % 0.2 % 53.4 % Kluster % 4.4 % 3.9 % 8.3 % Total 50.3 % 42.2 % 7.5 % % I tabell 4.16 visas fördelningen för tåguppdrag som finns i kluster ett, två och tre gällande den nutida tågindelningen. Det som visas är att kluster ett är blandad med både kortdistanståg, medeldistanståg och långdistanståg. Kluster två finns den största andelen för både kortdistanståg och medeldistanståg, detta kluster har också den minsta andelen långdistanståg på 0.2 %. I kluster tre visas den största andelen av långdistanståg på 3.9 procent och 4.4 procent medeldistanståg och inte ett enda kortdistanståg har klassats i denna grupp. Tabell 4.17: Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Total Kluster % 0.0 % 14.6 % 1.5 % 1.9 % 38.3 % Kluster % 5.9 % 23.2 % 0.2 % 0.0 % 53.4 % Kluster % 0.0 % 4.4 % 1.4 % 2.5 % 8.3 % Total 44.4 % 5.9 % 42.2 % 3.1 % 4.4 % % 33

46 Resultat och analys I tabell 4.17 visas fördelningen för det tre olika klustren för variabeln tågtyp. I kluster ett är det flest pendeltåg och regionaltåg. Dock visas det att fjärrtåg och snabbtåg också klassats in i detta kluster. Flygtåg finns bara i kluster två, kluster två innehåller också pendeltåg och regionaltåg. Detta kluster har knappt några fjärrtåg eller snabbtåg. Kluster tre innehåller regionaltåg, fjärrtåg och snabbtåg. 34

47 5. Diskussion och slutsats I denna studie har författarna använt beslutsträd, neurala nätverk samt hierarkisk klustring för att undersöka indelningen av tågkategorierna kortdistanståg, medeldistanståg och långdistanståg. Den första frågeställningen var: Fungerar den nuvarande indelningen av kortdistanståg, medeldistanståg och långdistanståg vid redovisning av officiell statistik för tåg? Beslutsträdet fick en ackuratess på procent och det neurala nätverket en ackuratess på 88.0 procent. Båda klassificeringsmetodernas ackuratess är hög, vilket tyder på att den större andelen tåguppdrag kunde klassificeras till dagens indelning av Tågsort. I och med detta resultat tyder de på att den nuvarande klassificeringen av kortdistanståg, medeldistanståg och långdistanståg fungerar vid redovisning av Trafikanalys officiella statistik. Det skiljer sig cirka 4.5 procentenheter mellan de olika klassificeringsmetoderna. Detta resultat kan bero på metodernas val av inställningar för föroreningsmått, felfunktion och aktiveringsfunktion, men även på vilka storlekar träningsmängden, valideringsmängden och testmängden har haft. Eftersom att båda metoderna visade på hög ackuratess kan dagens indelning av Tågsort fungera att använda när Trafikanalys redovisar officiell statistik. Däremot finns det inget i detta resultat som säger att denna indelning är den lämpligaste. Den andra frågeställningen var: Vilka variabler hänger ihop med dagens tågindelning? De variabler som hade betydelse för klassificeringen av Tågsort för beslutsträdet var Tåglängd, Planerade tågkilometrar, Planerad km/h och Planerad tågtid. Tåglängd, Planerade tågkilometrar och Planerad km/h var de variabler som hade störst betydelse för klassificeringen. Tåglängd hade en importance på 1.00, Planerade tågkilometrar en importance på 0.87 och Planerad km/h en importance på Variabeln Tåglängd kan ha haft betydelse för att de olika tågsorternas längd skiljer sig. Ett kortdistanståg (pendeltåg och flygtåg) är som längst 240 meter och ett 35

48 Diskussion och slutsats långdistanståg (fjärrtåg och snabbtåg) 430 meter. Planerade tågkilometrar hade den näst största betydelsen. Även här skiljer det sig maxvärdet, speciellt mellan kortdistanstågen och långdistanstågen på antalet kilometrar ett tåg planerat att åka. Ett kortdistanståg åker som längst 199 kilometrar och ett långdistanståg som längst kilometrar. Planerad km/h skiljer sig också för kortdistanstågen och långdistanstågen. Medeldistanstågens (regionaltåg) värden för variablerna ligger mittemellan kortdistanstågens och långdistanstågens värden. Detta kan ha påverkat resultatet för beslutsträdets och neurala nätverkets förväxlingsmatriser. I förväxlingsmatriserna predikterades knappt inga långdistanståg till kortdistanståg och inget kortdistanståg predikterades till att vara ett långdistanståg. Däremot predikterades en mindre andel kortdistanståg och långdistanståg till att vara ett medeldistanståg för neurala nätverkets förväxlingsmatris. Vid en diskussion med en av Trafikverkets medarbetare (Sjöberg, 2018) kan detta även berott på att del tåguppdrag ibland blivit klassade som både kortdistanståg och medeldistanståg. Den tredje frågeställningen var: Går det att hitta någon bättre tågindelning för redovisning av officiell statistik? För den nya grupperingen visades tre grupper. I den första gruppen förekom stycken unika tåguppdrag för kortdistanståg, medeldistanståg och långdistanståg. Den andra gruppen innehöll unika tåguppdrag, i detta kluster var det markant mer kortdistanståg och medeldistanståg, även alla flygtåg som studerades i datamaterialet klassades in i denna grupp. Grupp tre innehöll tåguppdrag. I detta kluster förekom bara medeldistanståg och långdistanståg. Eftersom att indelningen blandade de olika persontågen går det inte med detta resultat att hitta ett bättre sätt för indelningen av tågsorterna. Fördelningen för Tågsort för de tre olika klustren kan återigen kopplas till den beskrivande statistiken men också till neurala nätverkets förväxlingsmatris. Medeldistanstågen är blandad i både kluster ett, två och tre, medan kortdistanstågen bara förekommer i kluster ett och två och långdistanstågen bara finns i kluster ett och tre. Det tyder på att kortdistanstågen och långdistanstågen kan skilja sig, medan medeldistanstågen har svårare att klassas in i ett specifikt kluster. Fördelningen av tågtyperna som delats in i kluster ett, två eller tre studeras ifall det går att hitta någon bättre indelning än dagens tåggruppering. En bättre indelning i denna studie syftar på att hitta en ny indelning som är objektiv genom en oövervakad inlärning. Variabeln Tågtyp användes till detta för att hitta en ny indelning som är lätt att anpassa men också lätt att förstå. Det innebär ifall exempelvis alla pendeltåg hamnat i ett kluster medan alla flygtåg hamnat i ett 36

49 Diskussion och slutsats annat, hade en bättre fördelning varit att inte använda sig av kortdistanståg utan bara pendeltåg och flygtåg när punktlighetsstatistiken presenteras. Dock visas ingen uppenbar indelning gällande variabeln Tågtyp, därmed går det inte med detta resultat att hitta ett bättre sätt att dela in tågtyperna. Vid skapandet av beslutsträdet har olika inställningar testats för trädet djup och föroreningsmått. Det är dock svårt att hitta de bästa inställningarna på grund av begränsade algoritmer inom beslutsträd och det har varit ett problem vid skapandet av trädet. Mängden på träningsmängd, valideringsmängd och testmängd har även varit problematiskt under skapandet, eftersom ett träd lätt kan överanpassas. De mängder som tillslut gav ett träd som inte blev överanpassat var en träningsmängd på 60 procent, en valideringsmängd på 20 procent och en testmängd på 20 procent. Vid skapandet av neurala nätverk har flera antal olika noder testats och jämförts i det gömda lagret. Det för att jämföra vilket neuralt nätverk som gav det bästa resultatet. Ett problem vid skapandet av det neurala nätverket har varit att hitta vilka mängder som ska användas för träningsmängd, valideringsmängd och testmängd för att nätverket till en början överanpassades. De mängder som tillslut inte gav ett överanpassat neuralt nätverk var en träningsmängd på 60 procent, en valideringsmängd på 20 procent och en testmängd på 20 procent. I neurala nätverk är det svårt att tolka vikterna på variablerna, till skillnad mot beslutsträd där variable importance kunde tolkas lätt. Därför presenterades aldrig vikterna för variablerna i det neurala nätverket för studiens resultat. Trots det användes ändå neurala nätverk för att kunna stärka tillförlitligheten. Olika frön har testats för indelningen av träningsmängd, valideringsmängd och testmängd när beslutsträd och neurala nätverk användes. Detta för att utesluta att slumpen är det som påverkat klassificeringsmetodernas resultat. Vid valet av klassificeringsmetoder hade även multipel logistisk regression varit lämplig eftersom denna metod, precis som beslutsträd, kan ta fram vilka variabler som har störst inflytande på klassificeringen. Denna metod rekommenderar författarna för vidare studier där det skulle kunde undersökas om samma eller olika variabler hänger ihop med dagens indelning för Tågsort. Tolkning av ett dendrogram är en subjektiv bedömning, det innebär att antalet kluster kan variera beroende på betraktare. Det gör att detta visualiseringsverktyg har ett varierande resultat. I studiens fall kan både två eller fyra kluster vara relevant att undersöka. Dock valdes det i studien att analysera tre för att denna uppdelning var tydligast för författarna, men också för att det skulle vara intressant att se olikheter och likheter mellan dagens tåggruppering och den nya. Under studiens gång har länkningsmetoderna närmaste grannar (single link), yttersta grannar (complete link), genomsnittslänkning (group average) och Ward s 37

50 Diskussion och slutsats testats. Närmaste grannar, yttersta grannar och genomsnittslänkning visades bara två kluster, ena klustret innehöll nästintill alla tåguppdrag i datamaterialet, medan det andra klustret bara tilldelades ett fåtal. Resultatet för dessa länkningsmetoder var därmed mindre intressant för studien, därför testades länkningsmetoden Ward s. Denna metod visade en ny uppdelning av datamaterialet till skillnad från de andra länkningsmetoderna. När visualiseringsverktyg användes har några observationer varit uteliggare. Detta kan vara en bidragande orsak till varför många länkningsmetoder inte fungerade på ett önskvärt sätt. Hierarkisk klustring är en långsam klustringsmetod, det gör att anpassningen av denna metod tar tid eller inte alls fungerar i vissa fall. Studiens datamaterial innehåller observationer, denna allokering utfördes på cirka en och en halv timme i programvaran SAS 9.4. Programvaran R-Studio har inte kunnat användas när hierarkisk klustring allokerats. En anledning till detta problem kan varit författarnas datorer som inte är lämpade för denna allokeringsmängd. 38

51 Litteratur Chen, Y. m. fl. (2017). Vehicle type classification based on convolutional neural network Chinese Automation Congress (CAC), Oct, 201. doi: /CAC Chow, M.-Y. m. fl. (1994). Bernoulli Error Measure Approach to Train Feedforward Artificial Neural Networks for Classification Problems. Proceedings of 1994 IE- EE International Conference on Neural Networks (ICNN 94), 28 June-2 Jul, doi: /ICNN Cronqvist, E. och F. Smed (2016). Affärsmodeller på den svenska bankmarknaden. Examensarbete, KTH, Stockholm. de Ville, B. (2006). Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner. SAS Institute Inc. Hastie, T., R. Tibshirani och J. Friedman (2001). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer, New York. Lindberg, F. och A. Norin (2018). Punktlighet på järnväg 2017 kvartal 4. Trafikanalys, 22 Jan url: bantrafik/punktlighet- pa- jarnvag/2017/punktlighet- pa- jarnvag kvartal-4.pdf? (hämtad 4 febr. 2018). Lindberg, F. och A. Norlin (2018). Punktlighet på järnväg. Trafikanalys. url: pa- jarnvag/ (hämtad 1 febr. 2018). Manly, B. F. (2004). Multivariate Statistical Methods: A Primer, Third Edition. Chapman och Hall/CRC, New York. S. Sarikan, S., A. Murat Ozbayoglu och O. Zilci (2017). Automated Vehicle Classification with Image Processing and Computational Intelligence Elsevier Science Publishers B. V. Amsterdam, The Netherlands, 1 Nov, doi: /j.procs SAS Institute Inc. (2013). SAS R Enterprise Miner TM 13.1: High-Performance Procedures. Cary, NC: SAS Institute Inc. SCB (2018). Samordning av Sveriges officiella statistik. Statistiska Centralbyrån. url: (hämtad 7 febr. 2018). Sjöberg, L. (2018). Trafikverket. Muntligt samtal 12 jun, Tan, P., M. Steinbach och V. Kumar (2006). Introduction to Data Mining. Pearson Education, Inc. Trafikverket (2016). Vår verksamhet. Trafikverket. url: se/om-oss/var-verksamhet/ (hämtad 6 febr. 2018). 39

52 6. Bilagor 6.1 Beslutsträd Figur 6.1: Beslutsträdet

53 6.2 Neurala nätverk Utskrift från de slutgiltiga vikterna Figur 6.2: Tabell för neurala nätverkets variabelvikter. Figur 6.2 visar en tabell över variablernas vikter för det neurala nätverket.

54 6.2.2 Diagram på de slutgiltiga vikterna Figur 6.3: Variablernas vikter för neurala nätverk, diagram. Figur 6.3 visar vikterna för variablerna i skapandet av det neurala nätverket.

Visa mer