Analys av nutidens tågindelning

Storlek: px
Starta visningen från sidan:

Download "Analys av nutidens tågindelning"

Transkript

1 Kandidatuppsats i Statistik Analys av nutidens tågindelning Ett uppdrag framtaget av Trafikverket Molinia Gabrielsson Viktoria Grek Avdelningen för Statistik och maskininlärning Institutionen för datavetenskap Linköpings universitet Vårterminen, 2018 ISRN: LIU-IDA/STAT-G 18/005 SE

2 Handledare: Krzysztof Bartoszek Examinator: Annika Tillander

3 Abstract The information used in this paper comes from Trafikverket s delivery monitoring system. It consists of information about planned train missions on the Swedish railways for the years 2014 to 2017 during week four (except planned train missions on Roslagsbanan and Saltsjöbanan). Trafikanalys with help from Trafikverket presents public statistics for short-distance trains, middle-distance trains and long-distance trains on Trafikanalys website. The three classes of trains have no scientific basis. The purpose of this study is therefore to analyze if today s classes of trains can be used and which variables that have importance for the classification. The purpose of this study is also to analyze if there is a better way to categorize the classes of trains when Trafikanalys publishes public statistics. The statistical methods that are used in this study are decision tree, neural network and hierarchical clustering. The result obtained from the decision tree was a percent accuracy for the classification of Train type. The most important variables for Train type were Train length, Planned train kilometers and Planned km/h. Neural networks were used to investigate whether this method could also provide a similar result as the decision tree too strengthening the reliability. Neural networks got an 88 percent accuracy when classifying Train type. Based on these two results, it indicates that the larger proportion of train assignments could be classified to the correct Train Type. This means that the current classification of Train type works when Trafikanalys presents official statistics. For the new train classification, three groups were analyzed when hierarchical clustering was used. These three groups were not the same as the group s shortdistance trains, middle-distance trains and long-distance trains. Because the new divisions have blended the various passenger trains, this result does not help to find a better subdivision that can be used for when Trafikanalys presents official statistics.

4

5 Sammanfattning Datamaterialet som används i uppsatsen kommer ifrån Trafikverkets leveransuppföljningssystem. I datamaterialet finns information om planerade tåguppdrag för de svenska järnvägarna för år 2014 till 2017 under vecka fyra (bortsett från planerade tåguppdrag för Roslagsbanan och Saltsjöbanan). Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistanståg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågkategorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som hänger ihop med denna indelning. Syftet är även att undersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik. De statistiska metoder studien utgått ifrån är beslutsträd, neurala nätverk och hierarkisk klustring. Resultatet som erhölls från beslutsträdet var en ackuratess på procent för klassificeringen av Tågsort. De variabler som hade störst betydelse för Tågsort var Tåglängd, Planerade tågkilometrar och Planerad km/h. Neurala nätverk användes för att undersöka om även denna metod kunde ge ett liknande resultat som beslutsträdet och därmed stärka tillförlitligheten. Neurala nätverket fick en ackuratess på 88 procent vid klassificeringen av Tågsort. Utifrån dessa två resultat tyder det på att den större andelen tåguppdrag kunde klassificeras till rätt Tågsort. Det innebär att nuvarande klassificering av Tågsort fungerar när Trafikanalys presenterar officiell statistik. För den nya tågklassificeringen analyserades tre grupper när hierarkisk klustring användes. Dessa tre grupper liknande inte dagens indelning för kortdistanståg, medeldistanståg och långdistanståg. Eftersom att de nya indelningarna blandade de olika persontågen går det inte med detta resultat att hitta en bättre indelning som kan användas när Trafikanalys presenterar officiell statistik.

6

7 Innehåll 1 Inledning Bakgrund Syfte Frågeställningar Uppdragsgivare Etiska aspekter Data Beskrivning av data Responsvariabel Avgränsningar Databearbetning Aggregering Variabelbearbetning Bortfall Metod Klassificeringsmetoder Beslutsträd Neurala nätverk Ackuratess och felkvot Hierarkisk klustring Olikhetsmatris Avståndsmått Länkningsmetoder Dendrogram Standardisering Programvaror Resultat och analys Beskrivande statistik Histogram över förklaringsvariablerna Andelen tågsorter som planerades Andelen tågtyper som planerades Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Klassificering Beslutsträd Neurala nätverk

8 INNEHÅLL 4.3 Hierarkisk klustring Diskussion och slutsats 35 6 Bilagor Beslutsträd Neurala nätverk Utskrift från de slutgiltiga vikterna Diagram på de slutgiltiga vikterna Hierarkisk klustring Två stycken kluster Fyra stycken kluster

9 Figurer 2.1 Korrelation mellan framförda variabler och planerade variabler Andelen tåguppdrag som planerats mellan år 2014 till 2017 under vecka fyra Exempel på ett beslutsträds uppbyggnad Ett neuralt nätverk med Q stycken noder i outputlagret och med M stycken noder i det gömda lagret Exempel på single link Exempel på complete link Exempel på group average Exempel på ett dendrogram Histogram som visar fördelningen för variabeln Antalet dragfordon Histogram som visar fördelningen för variabeln Antalet hjulaxlar Histogram som visar fördelningen för variabeln Antalet vagnar Histogram som visar fördelningen för variabeln Planerade kilometrar Histogram som visar fördelningen för variabeln Planerad km/h Histogram som visar fördelningen för variabeln Planerad tågtid Histogram som visar fördelningen för variabeln Tåglängd Histogram som visar fördelningen för variabeln Tågvikt Dendrogram för hierarkisk klustring Beslutsträdet Tabell för neurala nätverkets variabelvikter Variablernas vikter för neurala nätverk, diagram

10 Tabeller 1.1 Exempel på punktlighetsstatistik som handlar om den procentuella förseningen Variabelbeskrivning för variabler som används i uppsatsens analys Förklaring av responsvaribeln Tågsort Exempel på ett icke-komprimerat datamaterial, fiktiva siffror Exempel på ett komprimerat datamaterial, fiktiva siffror Exempel på olikhetsmatris, fiktiva siffror Andelen tågsorter som planerades mellan år 2014 till 2017 vecka fyra Andelen tågtyper som planerades mellan år 2014 till 2017 vecka fyra Beskrivande statistik för pendeltåg Beskrivande statistik för flygtåg Beskrivande statistik för regionaltåg Beskrivande statistik för fjärrtåg Beskrivande statistik för snabbtåg Ackuratess och felkvot för beslutsträdet Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för beslutsträdet Variable importance för Tågsort Felkvot och ackuratess för neurala nätverket Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för neurala nätverket Hierarkisk klustring, kluster Hierarkisk klustring, kluster Hierarkisk klustring, kluster Hierarkisk klustring, fördelning av Tågsort i de olika klustrena Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Två stycken kluster Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Två stycken kluster Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Fyra stycken kluster Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Fyra styken kluster

11 TABELLER Centrala begrepp Dragfordon - Fordon med egen framdrivningsutrustning. Fjärrtåg - Fjärrtåg klassas som långdistanståg på Trafikverket och Trafikanalys punktlighetsstatistik. Dessa tåg transporterar resenärer vanligtvis längre sträckor. Flygtåg - Flygtåg är ett tåg som transporterar personer från en tätort till en flygplats. I Sverige är det enda flygtåget Arlanda Express. Dessa klassas som kortdistanståg. Pendeltåg - Pendeltåg är ett tåg som oftast går korta sträckor lokalt och klassas som kortdistanståg i Trafikverket och Trafikanalys punktlighetsstatisik. Regionaltåg - Persontåg som avser att transportera resenärer regionalt. Regionaltåg är ett tåg som klassas som medeldistanståg i Trafikverket och Trafikanalys punktlighetsstatistik. ROS - Rådet för den officiella statistiken. Sammanvägt tillförlitlighetsmått (STM) - Andelen planerade persontåg, dagen innan avgång, som ankommit till sin slutstation högst fem minuter efter avsatt tid. Snabbtåg - Snabbtåg är ett tåg som transporterar personer längre sträckor med snabbare fart. Ett snabbtåg klassas som långdistanståg i Trafikverket och Trafikanalys punktlighetsstatistik. Tågsort - Persontåg delas in i tre tågsorter: kortdistanståg, medeldistanståg och långdistanståg. Klassningen av tågsort bestäms av respektive tågoperatör i samråd med Trafikverket och avser att avspegla såväl tågets transportuppgift som tekniska egenskaper (Lindberg och Norlin, 2018). Tågtyp - Olika sorters persontåg. Dessa delas in som pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg. Tåguppdrag - Ett planerat/framfört persontågs ID-nummer. Uppehåll - Antalet destinationer ett tåguppdrag haft. Vagn - Fordon utan framdrivningsutrustning.

12

13 1. Inledning 1.1 Bakgrund Trafikanalys publicerar officiell statistik för att erbjuda det svenska folket information, för till exempel forskning eller utredningsverksamhet. På Statistiska Centralbyråns hemsida förklaras begreppet Sveriges officiella statistik, där de förklarar att statistiken som skall presenteras ska vara objektiv, allmänt tillgänglig och vara försedd med beteckningen Sveriges officiella statistik. Det är regeringen som beslutar om vilka myndigheter som ansvarar för att presentera officiell statistik. Totalt finns det 28 myndigheter som har blivit utsedda till att presentera denna sorts statistik. Myndigheterna väljer metoder och vilken typ av statistik som ska framgå i rapporterna. Dokumenten presenteras sedan varje år den 31 mars till regeringen (SCB, 2018). En av dessa myndigheter som ansvarar för att ta fram officiell statistik är Trafikanalys. En av delarna i den officiella statistiken som Trafikanalys tillhandahåller är punktlighetsstatistik på Sveriges järnvägar. Den statistik som Trafikanalys publicerar har tagits fram med hjälp av Trafikverket. Informationen som läggs upp på Trafikanalys hemsida är rapporter, tabellverk och dokument. I nuläget finns dokumentationer för varje kvartal under år 2015, 2016, 2017 och I dokumenten finns det statistik om bland annat tågförseningar, sammanvägt tillförlitlighetsmått (STM) och hur många tåg som har blivit inställda (Lindberg och Norlin, 2018). Statistiken ska ge en tydligare bild över hur tågtrafiken har fungerat under det senaste kvartalet. I rapporterna som publiceras på Trafikanalys sorteras informationen utifrån de tre tågsorterna kortdistanståg, medeldistanståg och långdistanståg. Trafikanalys beskriver dessa tågsorter som: Kortdistanståg - Persontåg som avser att transportera resenärer lokalt. Tågen annonseras vanligtvis som pendeltåg eller flygtåg. Medeldistanståg - Persontåg som avser att transportera resenärer regionalt. Tågen annonseras vanligtvis som regionaltåg. Långdistanståg - Persontåg som avser att transportera resenärer interregionalt. Tågen annonseras vanligtvis som fjärrtåg, nattåg eller snabbtåg. 1

14 Inledning I tabell 1.1 visas ett exempel på hur Trafikanalys presenterar punktlighetsstatistik på järnvägar för tågsorterna kortdistanståg, medeldistanståg och långdistanståg. I tabellen visas den procentuella förseningen för de olika tågsorterna för år 2015, 2016 och Denna tabell innehåller fiktiva siffror och kolumnen Total procent är den totala procenten som alla tre tågsorter har varit försenad. Tabell 1.1: Exempel på punktlighetsstatistik som handlar om den procentuella förseningen. År Total procent Kortdistanståg Medeldistanståg Långdistanståg Trafikanalys och Trafikverket har inte utfört någon studie gällande tågindelningen som visas i tabell 1.1. Det betyder att indelningen för Tågsort är en subjektiv bedömning. 1.2 Syfte Trafikanalys med hjälp av Trafikverket redovisar officiell statistik för kortdistanståg, medeldistanståg och långdistanståg på Trafikanalys hemsida. De tre tågkategorierna har inte någon vetenskaplig grund. Syftet med denna studie är därför att undersöka ifall dagens tågindelning fungerar och vilka variabler som hänger ihop med denna indelning. Syftet är även att undersöka om det finns någon bättre tågindelning som kan användas när Trafikanalys redovisar officiell statistik Frågeställningar Fungerar den nuvarande indelningen av kortdistanståg, medeldistanståg och långdistanståg vid redovisning av officiell statistik för tåg? Vilka variabler hänger ihop med dagens tågindelning Går det att hitta någon bättre tågindelning för redovisning av officiell statistik? 2

15 Inledning 1.3 Uppdragsgivare Trafikverket skapades den första april 2010 när Banverket, Vägverket, Rikstrafiken och Rederinämnden slogs ihop. Trafikverket ansvarar över transportsystemet för järnvägstrafik, vägtrafik, sjöfart och luftfart. Utöver det ansvarar de även för underhållet av statliga vägar och järnvägar (Trafikverket, 2016). Trafikverket är en svensk statlig förvaltningsmyndighet som har cirka personer anställda. Huvudkontoret är beläget i Borlänge men regionkontor finns även i Luleå, Gävle, Stockholm, Eskilstuna, Göteborg och Kristianstad. 1.4 Etiska aspekter Denna studie baseras på ett datamaterial som innehåller information om persontåg inom Sveriges järnvägar (undantag gällande Roslagsbanan och Saltsjöbanan i Stockholm). I datamaterialet finns ingen information om hur många eller vem som köpt en tågresa hos vilket eller vilka företag. Detta gör att studiens resultat inte behöver hållas dold. 3

16 2. Data 2.1 Beskrivning av data Datamaterialet som används i uppsatsen innehåller information om tåguppdrag som planerades under vecka fyra mellan år 2014 till Denna vecka valdes slumpmässigt ut av Trafikverket. Datamaterialet har hämtats från Trafikverkets leveransuppföljningssystem. Det ursprungliga datamaterialet var ickekomprimerad data, det betyder att de sträckor tågen ska framföras har inte sammanställts från den första till den sista hållplatsen. Istället har samma tåguppdrag flera observationer, där det finns information om bland annat varje uppehåll tåget skall passera/stanna på och hur lång sträckan är emellan. I det ursprungliga datamaterialet fanns totalt tio stycken numeriska variabler, resterande 29 variabler innehöll information om bland annat datum, antal uppehåll, startdestinationer och slutdestinationer. Tabell 2.1: Variabelbeskrivning för variabler som används i uppsatsens analys. Variabel Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometrar Planerad km/h Planerad tågtid Tåglängd Tågsort Tågtyp Tågvikt Variabelbeskrivning Antalet dragfordon på persontåget Antalet hjulaxlar på persontåget Antalet vagnar på persontåget De antal kilometrar tåget planerades att åka Det genomsnittliga hastigheten (km/h) för det planerade tåguppdraget De antal minuter tåget planerats att framföra Längden på persontåget i meter Kortdistanståg, medeldistanståg och långdistanståg Pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg Tågets vikt, utan passagerare Variablerna som visas i tabell 2.1 är de variabler som använts för studiens resultat. Denna studie analyserar det komprimerade datamaterialet som bestod av tio stycken variabler. Tågsort och Planerade km/h har skapats från de ursprungliga variablerna. Efter att aggregeringen utförts återstod unika tåguppdrag. 4

17 Data 2.2 Responsvariabel Datamaterialet som använts i denna uppsats innehåller två nominala variabler, varav den ena nominala variabeln Tågsort är datamaterialets responsvariabel. Tågsort indikerar huruvida ett tåguppdrag klassats som ett kortdistanståg, medeldistanståg eller långdistanståg. Denna variabel har skapats från den ursprungliga variabeln Tågtyp. Variabelns uppbyggnad förklaras i tabell 2.2 nedan. Tabell 2.2: Förklaring av responsvaribeln Tågsort. Tågtyp Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Tågsort Kortdistanståg Kortdistanståg Medeldistanståg Långdistanståg Långdistanståg 2.3 Avgränsningar Datamaterialet innehåller enbart tåguppdrag mellan år 2014 till 2017 under vecka fyra och denna vecka är slumpmässigt utvald av Trafikverket. I det ursprungliga datamaterialet förekom variabler om planerade tåguppdrag och hur de planerade tåguppdragen framfördes. I figur 2.1 visas korrelationen mellan de planerade variablerna och de framförda. Eftersom dessa variabler korrelerar högt med varandra innebär det att tågtiden och tågkilometrarna som planerades överensstämmer med de tåg som framfördes. Figur 2.1: Korrelation mellan framförda variabler och planerade variabler. 5

18 Data Eftersom variablerna i figur 2.1 visar ungefär samma information kommer bara information om de planerade variablerna eller det framförda variablerna att väljas. På grund av att variabeln Framförd tågtid innehöll ofullständiga rader i datamaterialet, valdes det att använda de planerade variablerna istället för de framförda. Figur 2.2: Andelen tåguppdrag som planerats mellan år 2014 till 2017 under vecka fyra. Det som visualiseras i figur 2.2 är att det förekommer en jämn andel planerade tåguppdrag under vardagarna, under helgerna planerades inte en lika stor andel tåguppdrag. Eftersom fördelningen inte överensstämmer mellan vardagar och helger har författarna av studien valt att enbart fokusera på tåguppdrag som planerades under vardagar. 2.4 Databearbetning Aggregering Eftersom det ursprungliga datamaterialet var ett ickekomprimerat datamaterial har aggregering varit nödvändigt för studien. Datamaterialet har aggregerats utifrån tåguppdragets startdatum. Det aggregerade datamaterialet består av sammanfattad information från tåguppdragets alla uppehåll. De variabler som existerade i det aggregerade datamaterialet visas i tabell 2.1. Variablerna Antalet 6

19 Data dragfordon, Antalet hjulaxlar och Antalet vagnar tolkas som diskreta variabler innan aggregering. Efter att aggregering utförts har dessa varit medelvärdet för hela tåguppdraget. Det innebär ifall ett tåg tillsätter en vagn på en hållplats kommer inte medelvärdet bli diskret. Tabell 2.3: Exempel på ett icke-komprimerat datamaterial, fiktiva siffror. Tåguppdrag Startdatum Datum Planerad tågtid Planerade tågkilometer I tabell 2.3 visas ett exempel på två ickekomprimerade tåguppdrag. Tåguppdrag ett har tre stycken rader och tåguppdrag två har två stycken rader. Aggregeringen utfördes utifrån variabeln Startdatum. Det gjordes på grund av att nattåg kan annars sammanfogas som två tåguppdrag istället för ett. Tabell 2.4: Exempel på ett komprimerat datamaterial, fiktiva siffror. Tåguppdrag Planerad tågtid Planerade tågkilometer I tabell 2.4 visar hur exemplet i tabell 2.3 blivit efter aggregeringen utförts Variabelbearbetning Utifrån det ursprungliga datamaterialet har två stycken nya variabler skapats. Dessa variabler är Planerade km/h och Tågsort. Variabeln Planerade km/h beräknas utifrån formel 2.1. Planerad km/h = Planerade tågkilometrar Planerad tågtid/60 (2.1) Variabeln Planerad km/h är den genomsnittliga hastigheten för hela tåguppdraget. Det innebär tågets framförda genomsnittshastighet från startdestination till slutdestination. Variabeln Tågsort har skapats från variabeln Tågtyp. Denna variabel förklaras i tabell 2.2. Indelningen av Tågsort har utgått ifrån dokument som finns tillgängliga på Trafikanalys hemsida (Lindberg och Norin, 2018). 7

20 Data 2.5 Bortfall Det ickekomprimerade datamaterialet efter rensning av data från helger innehöll observationer, utöver det var inte alla rader kompletta för de utvalda variablerna (se tabell 2.1 för mer information om variablerna). Därför valdes det att exkludera de ickekompletta raderna för att uppnå likvärdighet i datamaterialet. Efter denna rensning återstod observationer. Det innebar att observationer klassades som bortfall. De ickekompletta raderna beror på planerade tåg har blivit inställda och därmed saknat information om vilken Tågsort de tillhört. Eftersom antalet observationer som saknade data var litet, rensades dessa observationer bort från studien. 8

21 3. Metod 3.1 Klassificeringsmetoder I detta kapitel kommer metoderna beslutsträd och neurala nätverk att presenteras. Dessa metoder har används för att studera möjligheten att klassificera in de olika tåguppdragen till ett kortdistanståg, medeldistanståg eller långdistanståg. För att förstärka tillförlitligheten av analysen användes två olika klassificeringsmetoder parallellt. Beslutsträd och neurala nätverk används för att klassificera observationer till dess kända responsvariabel med hjälp av övriga befintliga variabler. Nedan visas två studier för att förstärka valet av dessa metoder. S. Sarikan, Murat Ozbayoglu och Zilci (2017) använde sig av beslutsträd för att klassificera två olika fordonstyper. De fordonstyper som studerades var bilar och motorcyklar. Datamaterialet som användes i denna studie utgick från bilder på de olika fordonstyperna. Resultatet för studien visade att beslutsträdet kunde klassificera bilarna och motorcyklarna till rätt fordonstyp. I en annan studie har Chen m. fl. (2017) använt sig av neurala nätverk för att klassificera tre olika modeller av bilar. Modellerna som studerades var sedan, minibuss och SUV. Datamaterialet som användes i denna studie utgick även det från bilder på de olika bilmodellerna. Resultatet i studien visade att metoden neurala nätverk kunde klassificera de olika bilmodellerna med en ackuratess på cirka 98 procent. Uppsatsens studie hämtar inte data från bilder, dock stärks valet av metoder eftersom båda visade på goda resultat. Beslutsträd och neurala nätverk kommer att användas för att besvara studiens frågeställning om den nuvarande indelningen av tågsorter fungerar vid redovisning av offentlig statistik. Beslutsträd används även för att besvara studiens andra frågeställning om vilka variabler som hänger ihop med dagens tågindelning. När en modellering utförs för beslutsträd och neurala nätverk delas datamaterialet slumpmässigt in i tre mängder träningsmängd, valideringsmängd och testmängd. Träningsmängden är den del av datamaterialet som förbereds för att klassificera in rätt observation till rätt responsklass. För att klassificeringen inte skall överanpassas, används en datamängd som kallas för valideringsmängd och den hjälper träningsmängden vid modellering. Slutligen skall modellen som är konstruerad av både träningsmängden och valdieringsmängden testas, till detta används test- 9

22 Metod mängden. För att hitta rätt storlekar på de olika mängderna utförs flertalet tester för att inte klassificeringsmetoderna skall överanpassas, men ändå få en hög ackuratess. I denna studie visade de sig att den bästa klassificeringen för både beslutsträd och neurala nätverk var när träningsmängden bestod av 60 procent av datamaterialet, 20 procent är valideringsmängden och resterande 20 procent är testmängden Beslutsträd En av uppsatsens metoder är beslutsträd och det är en teknik som används inom data mining. Metoden är populär att använda vid klassificering, eftersom den är lätt att förstå och analysera. Några av fördelarna med att använda metoden är att starkt korrelerade variabler inte kommer att påverka resultatet och att den är robust mot brus. Ett beslutsträds process vid klassificering kan beskrivas att datamängden delas upp till mindre och mindre grupper, där målet med grupperna är att de ska bli så lika varandra som möjligt och ingå i samma klass. Figur 3.1: Exempel på ett beslutsträds uppbyggnad. 10

23 Metod I figur 3.1 illustreras ett exempel på hur ett beslutsträd ser ut med en nominal responsvariabel med tre klasser. Högst upp i trädet finns en rotnod, utifrån den skapas en regel som bestämmer vägen till antingen lövnoder som avslutar förgreningen, eller till nya noder som fortsätter att sätta upp nya regler tills att trädet nått komplett struktur. Varje observation i modellen klassificeras sedan till den regel som observationen tillhör. När ett beslutsträd är komplett, menas det att förgreningen av trädet avtar och att det avslutats med lövnoder. I figur 3.1 har beslutsträdet nått en komplett struktur. Ett beslutsträd kan ibland avslutas tidigare än förväntat och det kan ske när ett träd nått sitt maximala djup eller när en förgrening blivit klar tidigare än förväntat. Ett maximalt djup sätts för att modellen för beslutsträdet inte ska bli överanpassat. Inom metoden beslutsträd finns det olika föroreningsmått. Förorening sker när observationer med olika klasser hamnat i samma nod. Därför används föroreningsmått för att minska att observationer med olika klass hamnar inom samma nod. De föroreningsmått som kommer användas i denna studie är Entropi och Gini. Dessa föroreningsmått visas i formel 3.1 och formel 3.2. c Entropi(t) = p(h t) log 2 p(h t) (3.1) h=1 c Gini(t) = 1 [p(h t)] 2 (3.2) h=1 där p(h t) är andelen observationer som tillhör klass h för given nod t, c är antalet klasser och log 2 är logaritmen med bas 2 (Tan, Steinbach och Kumar, 2006). När ett beslutsträds algoritm väljer ut en regel för trädets förgrening görs det genom att ett obegränsat antal regler uppstår. Utifrån dessa regler väljs sedan den regel med högst informationsvinst ut. Informationsvinsten,, visas i formel 3.3. = I(förälder) k f=1 N(v f ) N I(v f) (3.3) där I(.) är föroreningsmåttet för en given nod, N är antalet observationer i föräldranoden, k är antalet attributvärden och N(v f ) är antalet observationer i barnnoden, v f. Föräldranoden är den nod som finns innan den skapade noden. Beslutsträd beskrivs i boken (Tan, Steinbach och Kumar, 2006). 11

24 Metod Variablers betydelse för beslutsträd Variable importance är ett mått som kan användas inom beslutsträd för att ta reda på hur mycket betydelse olika variabler har haft för skapandet av trädet. Importance-måttet ligger mellan 0 och 1. Ett värde nära 1 är en variabel som haft stor betydelse och ett värde nära 0 är en variabel som haft lite betydelse för trädet. Enligt de Ville (2006) beräknas importance-måttet genom att studera trädets splittrade noders och lövnoders beslutsregler. Ifall en variabel är viktig för en splittring kommer denna variabel ha ett högt importance-mått. För de variabler som har betydelse för många av trädets nivåer, kommer variabelns importancemått att öka. Dock innebär det inte att de variabler som har betydelse för många splittringar behöver ha det högsta importance-måttet. De variabler som inte förekommer i någon av trädets regler har ingen betydelse alls, därmed värdet 0. För att beräkna variable importance i ett beslutsträd används SSE (summan av avvikelserna mellan observation och modell). Måttet SSE beräknas som Gini multiplicerat med antalet observationer i noden. Variable importance beräknas för varje använd variabel efter att trädet har tränats klart. Den används för att bedöma vilka variabler som är viktigast för responsvariabeln och är relaterad till den totala minskningen i SSE som användandet av variabeln bidrar till. Metoden variable importance beskrivs i (SAS Institute Inc., 2013) Neurala nätverk Neurala nätverk är en klassificeringsmetod eller regressionsmetod. I denna stuide används neurala nätverk som en klassificeringsmetod. Neurala nätverk kan användas för datamaterial med variabler med skalorna intervall, binär, nominal eller ordinal. Metoden är även den teknik som beskrivs som en av de mest avancerade teknikerna inom data mining. Klassificeringsmetoden neurala nätverk letar efter mönster i en del av datamaterialet som sedan kan tillämpas på en del eller hela datamaterialet (Hastie, Tibshirani och Friedman, 2001). Neurala nätverk är en prediktiv metod som baseras på en mängd inmatade uppgifter som genererar utmatade uppgifter, även kallat för inputlager och outputlager (se figur 3.2). Dessa lager är sammankopplade i det neurala nätverket och mellan dessa lager kan det finnas ett eller flera gömda lager. 12

25 Metod Figur 3.2: Ett neuralt nätverk med Q stycken noder i outputlagret och med M stycken noder i det gömda lagret. Outputlagrets noder används för att klassificera det mönster som datamaterialets responsvariabel har, i denna studies fall en nominal responsvariabel. Mellan inputlagret (X 1,..., X p ) och outputlagret (Y 1,..., Y Q ), finns ett gömt lager (Z 1,..., Z M ) som innehåller de gömda noderna (figur 3.2). Anledningen till varför de kallas gömda noder är för att de inte har någon koppling till omgivningen. De gömda lagrets noder kan liknas vid linjärkombinationer av inputlagrets noder (Hastie, Tibshirani och Friedman, 2001). Nedan visas formel 3.4 för neurala nätverk. Z m = σ(α 0m + α mx), m = 1,..., M V q = β 0q + β qz, q = 1,..., Q Y q = g q (V ), q = 1,..., Q (3.4) där Z = (Z 1, Z 2,..., Z M ) och V = (V 1, V 2,..., V Q ), σ och g är aktiveringsfunktioner, α 0m och β 0q är bias och α am och β bq är vikten av kopplingarna. För att skatta vikterna används bakåtpropagering. Algoritmen startar med slumpmässiga startvikter, där antalet startvikter som undersöks är antalet preliminära körningar som tillåts. Startvikterna som ger den lägsta felfunktionen itereras sedan vidare tills att konvergens uppnås. När ett neuralt nätverk framställs så letar algoritmen efter det nätverk som minimerar felfunktionen. Det innebär att ett globalt minimum är målet för nätverket, det går dock inte att veta om det är ett globalt minimum som har hittats. För denna uppsats har felfunktionen multipel Bernoulli-funktion valt att användas. Den multipla Bernoulli-funktionen rekommenderas att använda vid antingen nominal eller ordinal responsvariabel. Funktionen använder sig av målklassernas vektorer och nätverkets output-värden (Chow m. fl., 1994). 13

26 Metod I det gömda lagret och outputlagret används Softmax som aktiveringsfunktion. Det är aktiveringsfunktionen som avgör hur nodens output kommer att se ut. Softmax passar bra att använda när responsvariabeln för ett datamaterial är nominal eller binär. Aktiveringsfunktionen Softmax visas i formel 3.5 (Hastie, Tibshirani och Friedman, 2001). Softmax = g q (V ) = evq Q l=1 ev l (3.5) där V finns i formel 3.4, l är index för output-värdena, så l = 1,..., Q och e är exponentialfunktionen. För metoden neurala nätverk kan olika antal gömda lager användas. I denna studie har ett gömt lager använts för att minimera risken för överanpassning och en allt för komplex modell. Det är även bra att pröva flera olika antal noder i det gömda lagret. Det för att kunna jämföra modellernas resultat. 3.2 Ackuratess och felkvot För de båda klassificeringsmetoderna som använts i studien kommer måttet ackuratess att beräknas. Ackuratessen beräknar hur stor andel av observationerna i datamaterialet som klassificerats rätt och felkvot är andelen observationer som klassificerats fel. Ett högt värde på ackuratessen innebär en bättre klassificering (Tan, Steinbach och Kumar, 2006). F elkvot = F P (3.6) där F är hur stort antal av observationerna som klassificerats fel och P är totala antalet prediktioner. Ackuratess = T P = 1 F elkvot (3.7) där T är hur stort antal av observationerna som klassificerats rätt och P är totala antalet prediktioner. I studiens resultat kommer ackuratessen multipliceras med 100 för att kunna tolka resultatet i procent. 14

27 Metod 3.3 Hierarkisk klustring Metoden hierarkisk klustring används i denna studie för att studera ifall det finns någon bättre tåggruppering än dagens indelning kortdistanståg, medeldistanståg och långdistanståg. I en studie om affärsmodeller för svenska kreditinstitut har de undersökt ifall de finns likheter i affärsmodeller för svenska kreditinstitut och för svenska filialer av utländsk bank. Deras studie syftar till att hitta företagskluster för liknande affärsmodeller för kreditinstitut. Denna studie använder sig av hierarkisk klustring med Ward s länkningsmetod (Cronqvist och Smed, 2016). I studien fungerade deras val av metod. Därmed stärker denna studie att hierarkisk klustring med Ward s länkningsmetod kan användas för att studera olika sorters grupper. Metoden hanterar alla unika observationer som egna kluster i början. Sedan grupperas dessa med hjälp av en vald länkningsmetod. Den valda länkningsmetoden binder ihop observationer till grupper och detta repeteras tills att bara en grupp återstår. Hur klustren bildas beror på länkningsmetod. För att dessa skall kunna bindas ihop måste en olikhetsmatris beräknas. I olikhetsmatrisen beräknas ett avstånd mellan alla observationer/kluster för att se vilka som skall bindas tillsammans Olikhetsmatris Olikhetsmatrisen är en m m matris som innehåller avståndet mellan de kluster som skapats från föregående iteration. Första olikhetsmatrisen innehåller avståndet mellan alla unika observationer. Denna information används sedan för att nästa upprepning ska kunna genomföras med hjälp av en länkningsmetod. För att kunna beräkna en olikhetsmatris måste ett avstånd mellan de olika klustren uppskattas. Tabell 3.1: Exempel på olikhetsmatris, fiktiva siffror Kluster A B C A B C I tabell 3.1 visas ett exempel med fiktiva siffror på hur en olikhetsmatris kan se ut. I det här fallet visas det att det längsta avståndet är mellan kluster A och B medan det kortaste avståndet är mellan kluster B och C. 15

28 Metod Avståndsmått I hierarkisk klustring används avståndsmått för att räkna ut avstånden i olikhetsmatrisen. I denna uppsats har euklidiskt avstånd använts. Detta beror på att datamaterialet som används innehöll enbart kontinuerliga variabler. Euklidiskt avstånd Euklidiskt avstånd är sträckan som är kortast mellan de olika observationerna, därför kallas detta avstånd ibland för fågelvägen. d ij = (x i1 x j1 ) (x ip x jp ) 2 (3.8) där d ij är avståndet mellan observationerna i och j, x är variabler, p är antalet variabler, det vill säga antalet dimensioner i det euklidiska rummet. Detta avståndsmått beskrivs i boken (Manly, 2004) Länkningsmetoder De vanligaste länkningsmetoderna är närmaste grannen (single link), yttersta grannen (complete link), genomsnittslänkning (group average) och Ward s. Nedan kommer dessa länkningsmetoder förklaras. Närmaste grannen (Single link) Denna metod utgår ifrån kortaste avståndet i olikhetsmatrisen. Det innebär att denna länkar samman de kluster som är närmast varandra i olikhetsmatrisen. Metoden använder alla observationer utan att ta hänsyn till uteliggare. Det gör att resultatet från denna metod kan påverkas utav dem. Figur 3.3: Exempel på single link. 16

29 Metod I figur 3.3 visas det visuellt hur denna metod arbetar. De två cirklar som visas i figuren är kluster medan prickarna inuti är observationer. I detta fall kommer dessa två kluster bindas ihop. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006). Yttersta granne (Complete link) Länkningsmetoden yttersta granne (complete link) använder sig av de maximala avståndet istället för det minimala avståndet i olikhetsmatrisen. Efter alla maximala avstånd är beräknade kommer de två kluster som har de kortaste maximala avståndet länkas tillsammans. I figur 3.4 visas ett exempel på hur denna metod fungerar. De två heldragna cirklarna är redan skapade kluster medan prickarna är observationer. I detta fall kommer de två klusteren med kortast maximala avstånd länkas ihop, det illustreras med streckad cirkel. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006). Figur 3.4: Exempel på complete link. Genomsnittslänkning (Group Average) Genomsnittslänkning är en länkningsmetod som beräknar medelavståndet mellan alla observationer i ett kluster till alla observationer i ett annat kluster. När medelavståndet är beräknat mellan alla kluster länkas de två kluster med det kortaste medelavståndet ihop. I figur 3.5 visas ett exempel på hur metoden fungerar. Cirklarna symboliserar kluster medan punkterna visar observationer. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006). 17

30 Metod Figur 3.5: Exempel på group average. Ward s länkningsmetod Ward s länkningsmetod beräknar avståndet mellan de olika klusterna genom att studera kvadratfelet inom klustret om de skulle slås samman. Det betyder att den söker den sammanslagning som skulle innebära minst påverkan på variansen inom klustret. Metoden använder sig av kvadratfelet inom klustret istället för distanser mellan observationer, därför skiljer sig denna metod åt jämfört med närmaste grannen, yttersta grannen och genomsnittslänkning. Metoden beskrivs i boken (Tan, Steinbach och Kumar, 2006) Dendrogram Dendrogram är ett visuellt verktyg som används när hierarkisk klustring tillämpas. Dendrogram visar avståndet mellan klustrena när de sammanfogas på den lodräta axeln och observationsnumreringen visas på den vågräta axeln. Verktyget används för att studera hur många kluster som är lämpligt att analysera. Tolkningen av ett dendrogram är subjektiv. Det innebär att antalet kluster beror på betraktaren. Dock brukar den generella bedömningen ligga i att studera var den största uppdelningen längs den lodräta axeln är. Figur 3.6: Exempel på ett dendrogram. 18

31 Metod I figur 3.6 visas ett exempel på hur ett dendrogram kan se ut. Utifrån figur 3.6 kan tre streckade linjer visualiseras. Dessa tre streckade linjer korsar två, tre och fyra lodräta linjer. Antalet korsade linjer visar antalet kluster som förslagsvis bör analyseras i detta fall. Det innebär två, tre eller fyra kluster bör studeras. Steg i en hierarkisk klustring I punktlistan presenteras de olika stegen som utförs i hierarkisk klustring. 1: Välj variabler som är intressanta för studien. 2: Standardisera dessa. 3: Beräkna en olikhetsmatris. 4: Länka ihop kluster med hjälp av angiven länkningsmetod. 5: Uppdatera olikhetsmatrisen för att återspegla närheten mellan det nya klustren som skapats. 6: Repetera: Steg 4 och 5. Tills: Bara ett kluster kvarstår. 7: Konstruera dendrogram för att visualisera antalet kluster som bör analyseras. 8: Välj antalet kluster med hjälp av dendrogram. 3.4 Standardisering Standardisering har utförts på studiens datamaterial för att förklaringsvariablerna har haft olika skalor. Metoder som använt standardisering är beslutsträd, neurala nätverk och hierarkisk klustring. För att en variabel ska kunna standardiseras måste den vara numerisk. Efter en standardisering kommer medelvärdet bli noll och standardavvikelsen ett. De nya värdena för variabeln visar hur pass långt ifrån de ligger det förväntade värdet. Är värdet negativt ligger det under det förväntande värdet och tvärtom för ett positivt värde. I formeln 3.9 visas det att den standardiserade variabeln u för observation i, blir det nya värdet för u Ny. u Ny = u i ū s (3.9) u i är observationen som ska standardiseras, ū är medelvärdet för fördelningen av u, s är standardavvikelsen för u. 19

32 Metod 3.5 Programvaror I uppsatsen har följande statistiska programvaror använts: SAS Skapandet av hierarkisk klustring. SAS Enterprise Miner Skapandet av beslutsträd och neurala nätverk. R Studio - Användes för databearbetning och beskrivande statistik. 20

33 4. Resultat och analys Första delen av detta kapitel behandlar beskrivande statistik för de planerade tågtyperna. I senare delkapitel presenteras resultaten från metoderna beslutsträd, neurala nätverk och hierarkisk klustring. 4.1 Beskrivande statistik Histogram över förklaringsvariablerna Variablerna som presenterades i tabell 2.1 i kapitel 2.1 kommer att visualiseras med hjälp av histogram. Variablerna Tågsort och Tågtyp kommer inte att presenteras med histogram och det beror på att dessa variabler är kategoriska. Figur 4.1: Histogram som visar fördelningen för variabeln Antalet dragfordon. I figur 4.1 befinner sig den största andelen Antal dragfordon vid värdet ett, det innebär att de flesta planerade tågen i datamaterialet har ett dragfordon under hela resans gång. Det finns även några observationer i figur 4.1 som ligger mellan 4 till 7 dragfordon. 21

34 Resultat och analys Figur 4.2: Histogram som visar fördelningen för variabeln Antalet hjulaxlar. Den största andelen hjulaxlar som visas i figur 4.2 har cirka tio stycken hjulaxlar, det är ungefär 40 procent av alla tåguppdrag i datamaterialet som har tio hjulaxlar under hela tåguppdragets resa. Alla tåguppdrag har mellan 0 till 50 hjulaxlar. Det är mellan 10 till 15 procent som har 15 till 30 stycken hjulaxlar. Figur 4.3: Histogram som visar fördelningen för variabeln Antalet vagnar. I figur 4.3 visas det att de flesta tåguppdrag, över 90 procent, har inga vangar. Det finns dock några observationer mellan tre till nio stycken vagnar. 22

35 Resultat och analys Figur 4.4: Histogram som visar fördelningen för variabeln Planerade kilometrar. I figur 4.4 visas fördelningen för variabeln Planerade tågkilometrar. Den största andelen visas omkring 120 kilometer. Denna variabel har dock några observationer som ligger vid 750 kilometer. Figur 4.5: Histogram som visar fördelningen för variabeln Planerad km/h. Ett planerat tåg kör i genomsnitt mellan 50 km/h till drygt 160 km/h. Detta visas i figur 4.5. Den största andelen tåguppdrag kör dock mellan 60 km/h till 120 km/h. 23

36 Resultat och analys Figur 4.6: Histogram som visar fördelningen för variabeln Planerad tågtid. Omkring 100 minuter är den vanligaste planerade tågtiden för ett planerat tåguppdrag i datamaterialet. Det visas i figur 4.6. Dock finns några få observationer som ligger på cirka 500 minuter. Figur 4.7: Histogram som visar fördelningen för variabeln Tåglängd. I figur 4.7 visas det att den största andelen planerade tåg är drygt 75 meter långa. Det finns några få observationer som ligger på ungefär 400 meter. 24

37 Resultat och analys Figur 4.8: Histogram som visar fördelningen för variabeln Tågvikt. Det flesta planerade tåg i datamaterialet är drygt 150 ton till 220 ton tunga. I figur 4.8 visas fördelningen för hur tung de olika persontågen är inom datamaterialet. Det finns några få planerade tåg som är drygt 700 ton Andelen tågsorter som planerades I tabell 4.1 visas den totala andelen tågsorter som planerades. Tabell 4.1: Andelen tågsorter som planerades mellan år 2014 till 2017 vecka fyra. Kortdistanståg Medeldistanståg Långdistanståg Totalt 50.3 % 42.2 % 7.5 % Enligt tabell 4.1 består cirka 50 procent av datamaterialet av kortdistanståg. Även medeldistanstågen har en stor andel tåguppdrag på cirka 42 procent, medan långdistanstågen enbart har en andel på cirka åtta procent Andelen tågtyper som planerades I tabell 4.2 visas andelen för tågtyperna pendeltåg, flygtåg, regionaltåg, fjärrtåg och snabbtåg som planerades. 25

38 Resultat och analys Tabell 4.2: Andelen tågtyper som planerades mellan år 2014 till 2017 vecka fyra. Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Totalt 44.4 % 5.9 % 42.2 % 3.1 % 4.4 % Den största andelen tågtyper som planerades är pendeltåg och regionaltåg. Minsta andelen planerade tåg är fjärrtågen på drygt tre procent Pendeltåg Tabell 4.3: Beskrivande statistik för pendeltåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Ett pendeltåg kör i snitt 6.7 mil med en tid på drygt 58.6 minuter från första till sista station. Medelhastigheten ligger på drygt 71.4 kilometer i timmen. Det minsta ett pendeltåg kör är 6.4 kilometer och den maximala sträckan är drygt 20 mil. Topphastigheten för ett planerat pendeltåg är 130 kilometer i timmen. Ett pendeltåg är som längst 240 meter och som minst fem meter Flygtåg Tabell 4.4: Beskrivande statistik för flygtåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Ett flygtåg har en medelsträcka på 3.9 mil med en planerad genomsnittstid på 20 minuter. Flygtågets medelhastighet är 118 kilometer i timmen. Den planerade maxhastigheten är dock 147 km/h. Ett flygtåg är varken större eller mindre än 93 meter. 26

39 Resultat och analys Regionaltåg Tabell 4.5: Beskrivande statistik för regionaltåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Regionaltågets medeldistans är cirka 14 mil medan den längsta sträckan som planerats är 61 mil. Den genomsnittliga hastigheten på ett regionaltåg är drygt 90 kilometer i timmen. Ett regionaltåg är som längst 556 meter och som minst 32 meter Fjärrtåg Tabell 4.6: Beskrivande statistik för fjärrtåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Fjärrtåget längsta planerade sträcka är 152 mil medan kortaste är 1.7 kilometer. Dock brukar medelavstånden vara ungefär 38 mil. Ett fjärrtåg har en medelhastighet på 95 kilometer i timmen. Ett fjärrtåg är som längst 430 meter och som minst 55 meter Snabbtåg Tabell 4.7: Beskrivande statistik för snabbtåg. Max Min Medel Median Standardavvikelse Planerad kilometrar Planerad km/h Planerad tågtid (min) Tåglängd Ett snabbtåg har en medelhastighet på 127 km/h och har en medeldistans på drygt 45 mil. Den längsta sträckan ett snabbtåg planeras att köra är cirka 76 mil medan 27

40 Resultat och analys de kortaste är 2.2 mil. Ett snabbtåg är som längst 330 meter och som minst 106 meter. 4.2 Klassificering I detta kapitel kommer resultatet för beslutsträd och neurala nätverk att presenteras. De båda metoderna har använt ett standardiserat datamaterial. Samtliga variabler som finns i tabell 2.1 har använts förutom variabeln Tågtyp. Det beror på att Tågsort skapades utifrån denna variabel och är responsvariabeln för klassificeringsmetoderna Beslutsträd Beslutsträdet som skapats har provat flera olika djup, men det träd som gav bäst resultat och inte blev överanpassat var ett djup på tre och en splittring på tre, då responsvariabeln Tågsort har tre klasser. Föroreningsmåttet som användes för beslutsträdet var Gini då det gav lägst felkvot av de två föroreningsmåtten. Det fullständiga beslutsträdet går att betrakta i bilaga 6.1. Tabell 4.8: Ackuratess och felkvot för beslutsträdet. Felkvot Ackuratess 7.49 % % Tabell 4.8 visar att procent av tåguppdragen har klassificerats till rätt Tågsort med hjälp av beslutsträdet. Felkvoten i tabell 4.8 ligger på 7.49 procent vilket tyder på att 7.49 procent av tåguppdragen har klassificerats till fel Tågsort. En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell 4.9. Tabell 4.9: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för beslutsträdet. Sanna Tågsort Kortdistanståg Medeldistanståg Långdistanståg Predikterade Kortdistanståg % 2.09 % 0.00 % Medeldistanståg 7.03 % % 6.64 % Långdistanståg 0.29 % 6.16 % % 28

41 Resultat och analys I tabell 4.9 har cirka 92.7 procent kortdistanståg, cirka 91.6 procent medeldistanståg och cirka 93.4 procent långdistanståg predikterats rätt. Cirka 0.3 procent långdistanståg har predikterats som kortdistanståg och cirka sju procent medeldistanståg har predikterats som kortdistanståg. Inget kortdistanståg har predikterats till ett långdistanståg och cirka 6.6 procent medeldistanståg har predikterats som långdistanståg. Utifrån tabell 4.8 och tabell 4.9 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av förklaringsvariablerna. Tabell 4.10: Variable importance för Tågsort Variabler Antal uppdelade regler Importance Tåglängd Planerade tågkilometrar Planerad km/h Planerad tågtid Antal dragfordon Antal vagnar Antal hjulaxlar Tågvikt I tabell 4.10 visas vilka variabler som har haft betydelse för klassificeringen av Tågsort. Den variabel som har högst importance i tabell 4.10 är Tåglängd. Planerade tågkilometrar och Planerad km/h har också haft stor betydelse för beslutsträdet, men även variabeln Planerad tågtid har haft lite betydelse. De variabler som inte haft någon betydelse alls för beslutsträdets klassificering var Antal dragfordon, Antal vagnar, Antal hjulaxlar och Tågvikt Neurala nätverk När neurala nätverk skapas anges alltid hur många noder nätverket ska innehålla och antalet gömda lager. För studiens neurala nätverk användes ett gömt lager, det för att inte få en allt för komplex modell. Det har prövats att använda flera olika antal noder (mellan fyra till nio stycken noder) i det gömda lagret för att få fram det bästa neurala nätverket och det bästa antalet noder var fem. Tabell 4.11: Felkvot och ackuratess för neurala nätverket. Felkvot Ackuratess % % Tabell 4.11 visar att totalt 88 procent av tåguppdragen har klassificerats till rätt Tågsort med hjälp av det neurala nätverket. Felkvoten i tabell 4.11 ligger på 12 29

42 Resultat och analys procent vilket tyder på att 12 procent av tåguppdragen har klassificerats till fel Tågsort. En förväxlingsmatris har tagit fram för att se hur stor andel tåguppdrag som predikterats till dess rätta Tågsort och hur stor andel som predikterats fel. En bra modell ska innehålla en stor andel tåguppdrag i diagonalen eftersom det betyder att tåguppdragen klassificerats rätt. Denna matris visas i tabell Tabell 4.12: Förväxlingsmatris över de predikterade och sanna tåguppdragen för Tågsort för neurala nätverket. Sanna Tågsort Kortdistanståg Medeldistanståg Långdistanståg Predikterade Kortdistanståg % 8.77 % 0.00 % Medeldistanståg 9.46 % % % Långdistanståg 0.43 % 5.27 % % I tabell 4.12 har cirka 90.1 procent kortdistanståg, cirka 86 procent medeldistanståg och 85.6 procent långdistanståg predikterats till rätt Tågsort. Cirka 0.4 procent långdistanståg har predikterats som kortdistanståg och cirka 9.5 procent medeldistanståg har predikterats som kortdistanståg. Dock har cirka 8.8 procent kortdistanståg predikterats som medeldistanståg och cirka 5.3 procent långdistanståg har predikterats som medeldistanståg. Inget kortdistanståg har predikterats till ett långdistanståg och 14.4 procent medeldistanståg har predikterats som långdistanståg. Utifrån tabell 4.11 och tabell 4.12 tyder dessa resultat på att större andelen tåguppdrag kunde klassificeras till rätt Tågsort med hjälp av förklaringsvariablerna. 4.3 Hierarkisk klustring I detta kapitel kommer resultat av hierarkisk klustring presenteras. Hierarkisk klustring används för att undersöka ifall en bättre fördelning av tåguppdrag kategoriseras när en oövervakad inlärning används, samt studera ifall liknelser mellan dess indelning och dagens tåggruppering tågsort existerar. För att studera ifall en bättre indelning existerar visas fördelningen i de olika klustren av variabeln Tågtyp, ifall en ny lätthanterlig indelning av Tågtyp existerar anser författarna att en objektivt bättre fördelning är hittad. Samtliga variabler som finns i tabell 2.1 har använts i klustringen förutom variabeln Tågtyp och Tågsort. I resultatet har Ward s länkningsmetod anpassats. Denna metod gav en bättre uppdelning jämfört med metoderna närmaste grannen (single link), yttersta granne (complete link), genomsnittslänkning (group Average). De andra metoderna aggregerade ihop datamaterialet till ett stort kluster, jämfört med länkningsme- 30

43 Resultat och analys toden Ward s som gav en uppdelning på tre kluster som visas i figur 4.9. Därför valdes det att studera resultatet från länkningsmetoden Ward s i denna studie. Figur 4.9: Dendrogram för hierarkisk klustring. I figur 4.9 visas dendrogrammet för den hierarkiska klustringen. Dendrogrammet visar en uppdelning av datamaterialet på två, tre eller fyra grupper. Utifrån denna visualisering valdes det att studera tre kluster. Detta berodde på att författarna ansåg att det var den tydligaste uppdelningen men också för att jämföra likheter och olikheter mellan dagens tågindelning och den nya gruppering som visas i resultatet i detta kapitel. Dock visas fördelningen av två och fyra kluster för både Tågsort och Tågtyp i bilaga (se 6.1, 6.2, 6.3 och 6.4). I tabellerna 4.13, 4.14 och 4.15 visas information om de olika klustren. Informationen som framgår i tabellerna är antalet tåguppdrag i klustren, det standardiserade medelvärdet, standardavvikelsen, minimala värdet och det maximala värdet för de förklarande variablerna. 31

44 Resultat och analys Tabell 4.13: Hierarkisk klustring, kluster 1. N Medelvärde Std Min Max Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometer Planerad km/h Planerad tågtid Tåglängd Tågvikt I tabell 4.13 visas det att de unika tåguppdrag har klassats i kluster ett. Dessa tåguppdrag har fler dragfordon och hjulaxlar, kör länge sträckor, är tyngre och är längre än det genomsnittliga tåguppdraget. Det visas för att dessa variabler har ett positivt medelvärde. De variabler som har ett negativt medelvärde är variablerna Antalet vagnar och Planerad km/h. Det innebär att tåguppdragen som klassats i detta kluster har färre antal vagnar och kör långsammare än det genomsnittliga tåguppdraget. Tabell 4.14: Hierarkisk klustring, kluster 2. N Medelvärde Std Min Max Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometer Planerad km/h Planerad tågtid Tåglängd Tågvikt Tabell 4.14 visar information om kluster två. I detta kluster har unika tåguppdrag placerats. Alla medelvärden är negativa förutom ett, det medelvärde som är positivt är Planerad km/h, värdet för denna är Detta värde är nära noll, det innebär att tåguppdragen i kluster två har en planerad medelhastighet som liknar det allmänna medelvärdet för det unika tåguppdragen som analyserats i denna studie. 32

45 Resultat och analys Tabell 4.15: Hierarkisk klustring, kluster 3. N Medelvärde Std Min Max Antalet dragfordon Antalet hjulaxlar Antalet vagnar Planerade tågkilometer Planerad km/h Planerad tågtid Tåglängd Tågvikt I tabell 4.15 visas det tredje klustret. Antalet tåguppdrag i detta kluster är stycken. Ett medelvärde är negativt och det är för variabeln Antalet dragfordon. Detta värde är 0.092, när denna siffra är nära noll innebär det att medelvärdet för tåguppdragen i kluster tre har nästan lika många dragfordon som det genomsnittliga tåguppdraget. Alla andra variabler är större än noll det innebär att tåget har ett högre medelvärde på dessa variabler. Variabeln Antalet vagnar visar att det är mycket fler vagnar på de tåguppdrag som ligger i detta kluster jämfört med kluster ett och två. Tabell 4.16: Hierarkisk klustring, fördelning av Tågsort i de olika klustrena. Kortdistanståg Medeldistanståg Långdistanståg Total Kluster % 14.6 % 3.4 % 38.3 % Kluster % 23.2 % 0.2 % 53.4 % Kluster % 4.4 % 3.9 % 8.3 % Total 50.3 % 42.2 % 7.5 % % I tabell 4.16 visas fördelningen för tåguppdrag som finns i kluster ett, två och tre gällande den nutida tågindelningen. Det som visas är att kluster ett är blandad med både kortdistanståg, medeldistanståg och långdistanståg. Kluster två finns den största andelen för både kortdistanståg och medeldistanståg, detta kluster har också den minsta andelen långdistanståg på 0.2 %. I kluster tre visas den största andelen av långdistanståg på 3.9 procent och 4.4 procent medeldistanståg och inte ett enda kortdistanståg har klassats i denna grupp. Tabell 4.17: Hierarkisk klustring, fördelning av Tågtyp i de olika klustrena. Pendeltåg Flygtåg Regionaltåg Fjärrtåg Snabbtåg Total Kluster % 0.0 % 14.6 % 1.5 % 1.9 % 38.3 % Kluster % 5.9 % 23.2 % 0.2 % 0.0 % 53.4 % Kluster % 0.0 % 4.4 % 1.4 % 2.5 % 8.3 % Total 44.4 % 5.9 % 42.2 % 3.1 % 4.4 % % 33

46 Resultat och analys I tabell 4.17 visas fördelningen för det tre olika klustren för variabeln tågtyp. I kluster ett är det flest pendeltåg och regionaltåg. Dock visas det att fjärrtåg och snabbtåg också klassats in i detta kluster. Flygtåg finns bara i kluster två, kluster två innehåller också pendeltåg och regionaltåg. Detta kluster har knappt några fjärrtåg eller snabbtåg. Kluster tre innehåller regionaltåg, fjärrtåg och snabbtåg. 34

47 5. Diskussion och slutsats I denna studie har författarna använt beslutsträd, neurala nätverk samt hierarkisk klustring för att undersöka indelningen av tågkategorierna kortdistanståg, medeldistanståg och långdistanståg. Den första frågeställningen var: Fungerar den nuvarande indelningen av kortdistanståg, medeldistanståg och långdistanståg vid redovisning av officiell statistik för tåg? Beslutsträdet fick en ackuratess på procent och det neurala nätverket en ackuratess på 88.0 procent. Båda klassificeringsmetodernas ackuratess är hög, vilket tyder på att den större andelen tåguppdrag kunde klassificeras till dagens indelning av Tågsort. I och med detta resultat tyder de på att den nuvarande klassificeringen av kortdistanståg, medeldistanståg och långdistanståg fungerar vid redovisning av Trafikanalys officiella statistik. Det skiljer sig cirka 4.5 procentenheter mellan de olika klassificeringsmetoderna. Detta resultat kan bero på metodernas val av inställningar för föroreningsmått, felfunktion och aktiveringsfunktion, men även på vilka storlekar träningsmängden, valideringsmängden och testmängden har haft. Eftersom att båda metoderna visade på hög ackuratess kan dagens indelning av Tågsort fungera att använda när Trafikanalys redovisar officiell statistik. Däremot finns det inget i detta resultat som säger att denna indelning är den lämpligaste. Den andra frågeställningen var: Vilka variabler hänger ihop med dagens tågindelning? De variabler som hade betydelse för klassificeringen av Tågsort för beslutsträdet var Tåglängd, Planerade tågkilometrar, Planerad km/h och Planerad tågtid. Tåglängd, Planerade tågkilometrar och Planerad km/h var de variabler som hade störst betydelse för klassificeringen. Tåglängd hade en importance på 1.00, Planerade tågkilometrar en importance på 0.87 och Planerad km/h en importance på Variabeln Tåglängd kan ha haft betydelse för att de olika tågsorternas längd skiljer sig. Ett kortdistanståg (pendeltåg och flygtåg) är som längst 240 meter och ett 35

48 Diskussion och slutsats långdistanståg (fjärrtåg och snabbtåg) 430 meter. Planerade tågkilometrar hade den näst största betydelsen. Även här skiljer det sig maxvärdet, speciellt mellan kortdistanstågen och långdistanstågen på antalet kilometrar ett tåg planerat att åka. Ett kortdistanståg åker som längst 199 kilometrar och ett långdistanståg som längst kilometrar. Planerad km/h skiljer sig också för kortdistanstågen och långdistanstågen. Medeldistanstågens (regionaltåg) värden för variablerna ligger mittemellan kortdistanstågens och långdistanstågens värden. Detta kan ha påverkat resultatet för beslutsträdets och neurala nätverkets förväxlingsmatriser. I förväxlingsmatriserna predikterades knappt inga långdistanståg till kortdistanståg och inget kortdistanståg predikterades till att vara ett långdistanståg. Däremot predikterades en mindre andel kortdistanståg och långdistanståg till att vara ett medeldistanståg för neurala nätverkets förväxlingsmatris. Vid en diskussion med en av Trafikverkets medarbetare (Sjöberg, 2018) kan detta även berott på att del tåguppdrag ibland blivit klassade som både kortdistanståg och medeldistanståg. Den tredje frågeställningen var: Går det att hitta någon bättre tågindelning för redovisning av officiell statistik? För den nya grupperingen visades tre grupper. I den första gruppen förekom stycken unika tåguppdrag för kortdistanståg, medeldistanståg och långdistanståg. Den andra gruppen innehöll unika tåguppdrag, i detta kluster var det markant mer kortdistanståg och medeldistanståg, även alla flygtåg som studerades i datamaterialet klassades in i denna grupp. Grupp tre innehöll tåguppdrag. I detta kluster förekom bara medeldistanståg och långdistanståg. Eftersom att indelningen blandade de olika persontågen går det inte med detta resultat att hitta ett bättre sätt för indelningen av tågsorterna. Fördelningen för Tågsort för de tre olika klustren kan återigen kopplas till den beskrivande statistiken men också till neurala nätverkets förväxlingsmatris. Medeldistanstågen är blandad i både kluster ett, två och tre, medan kortdistanstågen bara förekommer i kluster ett och två och långdistanstågen bara finns i kluster ett och tre. Det tyder på att kortdistanstågen och långdistanstågen kan skilja sig, medan medeldistanstågen har svårare att klassas in i ett specifikt kluster. Fördelningen av tågtyperna som delats in i kluster ett, två eller tre studeras ifall det går att hitta någon bättre indelning än dagens tåggruppering. En bättre indelning i denna studie syftar på att hitta en ny indelning som är objektiv genom en oövervakad inlärning. Variabeln Tågtyp användes till detta för att hitta en ny indelning som är lätt att anpassa men också lätt att förstå. Det innebär ifall exempelvis alla pendeltåg hamnat i ett kluster medan alla flygtåg hamnat i ett 36

49 Diskussion och slutsats annat, hade en bättre fördelning varit att inte använda sig av kortdistanståg utan bara pendeltåg och flygtåg när punktlighetsstatistiken presenteras. Dock visas ingen uppenbar indelning gällande variabeln Tågtyp, därmed går det inte med detta resultat att hitta ett bättre sätt att dela in tågtyperna. Vid skapandet av beslutsträdet har olika inställningar testats för trädet djup och föroreningsmått. Det är dock svårt att hitta de bästa inställningarna på grund av begränsade algoritmer inom beslutsträd och det har varit ett problem vid skapandet av trädet. Mängden på träningsmängd, valideringsmängd och testmängd har även varit problematiskt under skapandet, eftersom ett träd lätt kan överanpassas. De mängder som tillslut gav ett träd som inte blev överanpassat var en träningsmängd på 60 procent, en valideringsmängd på 20 procent och en testmängd på 20 procent. Vid skapandet av neurala nätverk har flera antal olika noder testats och jämförts i det gömda lagret. Det för att jämföra vilket neuralt nätverk som gav det bästa resultatet. Ett problem vid skapandet av det neurala nätverket har varit att hitta vilka mängder som ska användas för träningsmängd, valideringsmängd och testmängd för att nätverket till en början överanpassades. De mängder som tillslut inte gav ett överanpassat neuralt nätverk var en träningsmängd på 60 procent, en valideringsmängd på 20 procent och en testmängd på 20 procent. I neurala nätverk är det svårt att tolka vikterna på variablerna, till skillnad mot beslutsträd där variable importance kunde tolkas lätt. Därför presenterades aldrig vikterna för variablerna i det neurala nätverket för studiens resultat. Trots det användes ändå neurala nätverk för att kunna stärka tillförlitligheten. Olika frön har testats för indelningen av träningsmängd, valideringsmängd och testmängd när beslutsträd och neurala nätverk användes. Detta för att utesluta att slumpen är det som påverkat klassificeringsmetodernas resultat. Vid valet av klassificeringsmetoder hade även multipel logistisk regression varit lämplig eftersom denna metod, precis som beslutsträd, kan ta fram vilka variabler som har störst inflytande på klassificeringen. Denna metod rekommenderar författarna för vidare studier där det skulle kunde undersökas om samma eller olika variabler hänger ihop med dagens indelning för Tågsort. Tolkning av ett dendrogram är en subjektiv bedömning, det innebär att antalet kluster kan variera beroende på betraktare. Det gör att detta visualiseringsverktyg har ett varierande resultat. I studiens fall kan både två eller fyra kluster vara relevant att undersöka. Dock valdes det i studien att analysera tre för att denna uppdelning var tydligast för författarna, men också för att det skulle vara intressant att se olikheter och likheter mellan dagens tåggruppering och den nya. Under studiens gång har länkningsmetoderna närmaste grannar (single link), yttersta grannar (complete link), genomsnittslänkning (group average) och Ward s 37

50 Diskussion och slutsats testats. Närmaste grannar, yttersta grannar och genomsnittslänkning visades bara två kluster, ena klustret innehöll nästintill alla tåguppdrag i datamaterialet, medan det andra klustret bara tilldelades ett fåtal. Resultatet för dessa länkningsmetoder var därmed mindre intressant för studien, därför testades länkningsmetoden Ward s. Denna metod visade en ny uppdelning av datamaterialet till skillnad från de andra länkningsmetoderna. När visualiseringsverktyg användes har några observationer varit uteliggare. Detta kan vara en bidragande orsak till varför många länkningsmetoder inte fungerade på ett önskvärt sätt. Hierarkisk klustring är en långsam klustringsmetod, det gör att anpassningen av denna metod tar tid eller inte alls fungerar i vissa fall. Studiens datamaterial innehåller observationer, denna allokering utfördes på cirka en och en halv timme i programvaran SAS 9.4. Programvaran R-Studio har inte kunnat användas när hierarkisk klustring allokerats. En anledning till detta problem kan varit författarnas datorer som inte är lämpade för denna allokeringsmängd. 38

51 Litteratur Chen, Y. m. fl. (2017). Vehicle type classification based on convolutional neural network Chinese Automation Congress (CAC), Oct, 201. doi: /CAC Chow, M.-Y. m. fl. (1994). Bernoulli Error Measure Approach to Train Feedforward Artificial Neural Networks for Classification Problems. Proceedings of 1994 IE- EE International Conference on Neural Networks (ICNN 94), 28 June-2 Jul, doi: /ICNN Cronqvist, E. och F. Smed (2016). Affärsmodeller på den svenska bankmarknaden. Examensarbete, KTH, Stockholm. de Ville, B. (2006). Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner. SAS Institute Inc. Hastie, T., R. Tibshirani och J. Friedman (2001). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer, New York. Lindberg, F. och A. Norin (2018). Punktlighet på järnväg 2017 kvartal 4. Trafikanalys, 22 Jan url: bantrafik/punktlighet- pa- jarnvag/2017/punktlighet- pa- jarnvag kvartal-4.pdf? (hämtad 4 febr. 2018). Lindberg, F. och A. Norlin (2018). Punktlighet på järnväg. Trafikanalys. url: pa- jarnvag/ (hämtad 1 febr. 2018). Manly, B. F. (2004). Multivariate Statistical Methods: A Primer, Third Edition. Chapman och Hall/CRC, New York. S. Sarikan, S., A. Murat Ozbayoglu och O. Zilci (2017). Automated Vehicle Classification with Image Processing and Computational Intelligence Elsevier Science Publishers B. V. Amsterdam, The Netherlands, 1 Nov, doi: /j.procs SAS Institute Inc. (2013). SAS R Enterprise Miner TM 13.1: High-Performance Procedures. Cary, NC: SAS Institute Inc. SCB (2018). Samordning av Sveriges officiella statistik. Statistiska Centralbyrån. url: (hämtad 7 febr. 2018). Sjöberg, L. (2018). Trafikverket. Muntligt samtal 12 jun, Tan, P., M. Steinbach och V. Kumar (2006). Introduction to Data Mining. Pearson Education, Inc. Trafikverket (2016). Vår verksamhet. Trafikverket. url: se/om-oss/var-verksamhet/ (hämtad 6 febr. 2018). 39

52 6. Bilagor 6.1 Beslutsträd Figur 6.1: Beslutsträdet

53 6.2 Neurala nätverk Utskrift från de slutgiltiga vikterna Figur 6.2: Tabell för neurala nätverkets variabelvikter. Figur 6.2 visar en tabell över variablernas vikter för det neurala nätverket.

54 6.2.2 Diagram på de slutgiltiga vikterna Figur 6.3: Variablernas vikter för neurala nätverk, diagram. Figur 6.3 visar vikterna för variablerna i skapandet av det neurala nätverket.

Klassificering av köp på betalda sökannonser

Klassificering av köp på betalda sökannonser Linköpings universitet Institutionen för datavetenskap Kandidatuppsats, 15 hp Statistik och dataanalys Vårterminen 2016 LIU-IDA/STAT-G--16/001 SE Klassificering av köp på betalda sökannonser Classification

Läs mer

Punktlighet på järnväg 2015 kvartal 3 Train performance 2015, quarter 3

Punktlighet på järnväg 2015 kvartal 3 Train performance 2015, quarter 3 Statistik 2015:29 Punktlighet på järnväg 2015 kvartal 3 Train performance 2015, quarter 3 Publiceringsdatum: 2015-10-28 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se

Läs mer

Klassificering av vinkvalitet

Klassificering av vinkvalitet Linköpings universitet Institutionen för datavetenskap Kandidatuppsats, 15hp Statistik och dataanalys Vårterminen 2017 LIU-IDA/STAT-G--17/007 SE Klassificering av vinkvalitet Björn Thellman Jack Brouwers

Läs mer

Punktlighet på järnväg 2017 kvartal 3 Train performance 2017 quarter 3

Punktlighet på järnväg 2017 kvartal 3 Train performance 2017 quarter 3 Statistik :33 Punktlighet på järnväg kvartal 3 Train performance quarter 3 Publiceringsdatum: -10-20 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se Andreas Holmström

Läs mer

Punktlighet på järnväg 2017 kvartal 4 Train performance 2017 quarter 4

Punktlighet på järnväg 2017 kvartal 4 Train performance 2017 quarter 4 Statistik 2018:2 Punktlighet på järnväg kvartal 4 Train performance quarter 4 Publiceringsdatum: 2018-01-22 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se Anna

Läs mer

Punktlighet på järnväg 2015 kvartal 4 Train performance 2015 quarter 4

Punktlighet på järnväg 2015 kvartal 4 Train performance 2015 quarter 4 Statistik 2016:2 Punktlighet på järnväg 2015 kvartal 4 Train performance 2015 quarter 4 Publiceringsdatum: 2016-01-29 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se

Läs mer

Punktlighet på järnväg 2018 kvartal 3 Train performance 2018 quarter 3

Punktlighet på järnväg 2018 kvartal 3 Train performance 2018 quarter 3 Statistik :31 Punktlighet på järnväg kvartal 3 Train performance quarter 3 Publiceringsdatum: -10-22 Kontaktpersoner: Anna Norin tel: 010-414 42 38, e-post: anna.norin@trafa.se Henrik Petterson tel: 010-414

Läs mer

Punktlighet på järnväg 2016 kvartal 3 Train performance 2016 quarter 3

Punktlighet på järnväg 2016 kvartal 3 Train performance 2016 quarter 3 Statistik 2016:33 Punktlighet på järnväg 2016 kvartal 3 Train performance 2016 quarter 3 Publiceringsdatum: 2016-10-28 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se

Läs mer

Punktlighet på järnväg 2019 kvartal 1 Train performance 2019 quarter 1

Punktlighet på järnväg 2019 kvartal 1 Train performance 2019 quarter 1 Statistik :12 Punktlighet på järnväg kvartal 1 Train performance quarter 1 Publiceringsdatum: -04-25 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se Henrik Petterson

Läs mer

Punktlighet på järnväg 2018 kvartal 2 Train performance 2018 quarter 2

Punktlighet på järnväg 2018 kvartal 2 Train performance 2018 quarter 2 Statistik :26 Punktlighet på järnväg kvartal 2 Train performance quarter 2 Publiceringsdatum: -07-13 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se Anna Norin tel:

Läs mer

Punktlighet på järnväg 2016 kvartal 2 Train performance 2016 quarter 2

Punktlighet på järnväg 2016 kvartal 2 Train performance 2016 quarter 2 Statistik 2016:29 Punktlighet på järnväg 2016 kvartal 2 Train performance 2016 quarter 2 Publiceringsdatum: 2016-08-01 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se

Läs mer

Punktlighet på järnväg Statistik 2017:6

Punktlighet på järnväg Statistik 2017:6 Punktlighet på järnväg 2016 Statistik 2017:6 Punktlighet på järnväg 2016 Statistik 2017:6 Trafikanalys Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se

Läs mer

Punktlighet på järnväg 2016 kvartal 1 Train performance 2016 quarter 1

Punktlighet på järnväg 2016 kvartal 1 Train performance 2016 quarter 1 Statistik 2016:11 Punktlighet på järnväg 2016 kvartal 1 Train performance 2016 quarter 1 Publiceringsdatum: 2016-04-28 Kontaktpersoner: Fredrik Lindberg tel: 010-414 42 36, e-post: fredrik.lindberg@trafa.se

Läs mer

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

2. Lära sig beskriva en variabel numeriskt med proc univariate 4. Lära sig rita diagram med avseende på en annan variabel Datorövning 1 Statistikens Grunder 2 Syfte 1. Lära sig göra betingade frekvenstabeller 2. Lära sig beskriva en variabel numeriskt med "proc univariate" 3. Lära sig rita histogram 4. Lära sig rita diagram

Läs mer

LKT325/LMA521: Faktorförsök

LKT325/LMA521: Faktorförsök Föreläsning 2 Innehåll Referensfördelning Referensintervall Skatta variansen 1 Flera mätningar i varje grupp. 2 Antag att vissa eekter inte existerar 3 Normalfördelningspapper Referensfördelning Hittills

Läs mer

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt Datorövning 1 Statistisk teori med tillämpningar Repetition av SAS Syfte Syftet med Datoröving 1 (D1) är att repetera de SAS-kunskaperna från tidigare kurser samt att ge en kort introduktion till de studenter

Läs mer

Punktlighet på järnväg kvartal Kvalitetsdeklaration

Punktlighet på järnväg kvartal Kvalitetsdeklaration Punktlighet på järnväg kvartal 3 2018 Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se Ansvarig utgivare: Brita Saxton

Läs mer

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs Statistikens grunder och 2, GN, hp, deltid, kvällskurs TE/RC Datorövning 3 Syfte:. Lära sig göra betingade frekvenstabeller 2. Lära sig beskriva en variabel numeriskt med proc univariate 3. Lära sig rita

Läs mer

Punktlighet på järnväg 2019 kvartal 3. Kvalitetsdeklaration

Punktlighet på järnväg 2019 kvartal 3. Kvalitetsdeklaration Punktlighet på järnväg 2019 kvartal 3 Adress: Rosenlundsgatan 54 118 63 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se Ansvarig utgivare: Mattias

Läs mer

Samlad effektbedömning av förslag till nationell plan och länsplaner för transportsystemet

Samlad effektbedömning av förslag till nationell plan och länsplaner för transportsystemet Samlad effektbedömning av förslag till nationell plan och länsplaner för transportsystemet 2018 2029 Förändrad förseningstid persontåg Åtgärdsplan 2018-2029 1(12) Kopia till: Förändrad förseningstid persontåg

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Projekt i bildanalys Trafikövervakning

Projekt i bildanalys Trafikövervakning Projekt i danalys Trafikövervakning F 99 F 00 Handledare : Håkan Ardö Hösten 3 vid Lunds Tekniska Högskola Abstract Using traffic surveillance cameras the authorities can get information about the traffic

Läs mer

Punktlighet på järnväg 2017 Kvalitetsdeklaration

Punktlighet på järnväg 2017 Kvalitetsdeklaration Punktlighet på järnväg 2017 Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se Ansvarig utgivare: Brita Saxton Publiceringsdatum:

Läs mer

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift Regressionsanalys, baserat på Sveriges kommuner

Läs mer

Bilaga 6 till rapport 1 (5)

Bilaga 6 till rapport 1 (5) till rapport 1 (5) Bilddiagnostik vid misstänkt prostatacancer, rapport UTV2012/49 (2014). Värdet av att undvika en prostatabiopsitagning beskrivning av studien SBU har i samarbete med Centrum för utvärdering

Läs mer

Norrtågs kvalitetsredovisning År 2015 Kvartal 1

Norrtågs kvalitetsredovisning År 2015 Kvartal 1 Norrtågs kvalitetsredovisning År 2015 Kvartal 1 Innehållsförteckning Våren är på väg! 3 Resandeutveckling 4 Information en del av resande 7 Punktlighet - andel tåg som kommer i rätt tid 11 Orsaken till

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Vad är statistik?

Läs mer

Punktlighet på järnväg 2019 kvartal 1. Kvalitetsdeklaration

Punktlighet på järnväg 2019 kvartal 1. Kvalitetsdeklaration 2019 kvartal 1 Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se Ansvarig utgivare: Brita Saxton Publiceringsdatum:

Läs mer

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip Tentamensdatum 2013-03-27

Läs mer

Punktlighet på järnväg 2017 kvartal 2. Kvalitetsdeklaration

Punktlighet på järnväg 2017 kvartal 2. Kvalitetsdeklaration Punktlighet på järnväg 2017 kvartal 2 Kvalitetsdeklaration Trafikanalys Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Nya Ostkustbanan ur ett passagerarperspektiv. Jan Kyrk Affärschef SJ AB

Nya Ostkustbanan ur ett passagerarperspektiv. Jan Kyrk Affärschef SJ AB Nya Ostkustbanan ur ett passagerarperspektiv Jan Kyrk Affärschef SJ AB Befolkningen växer 6 miljoner 8 9 11 10 12 13 miljoner 1923 1969 2004 2017 2040 2060 Källa: Befolkningsprognos 2017 (SCB) Tågresande

Läs mer

Examinationsuppgift 2014

Examinationsuppgift 2014 Matematik och matematisk statistik 5MS031 Statistik för farmaceuter Per Arnqvist Examinationsuppgift 2014-10-09 Sid 1 (5) Examinationsuppgift 2014 Hemtenta Statistik för farmaceuter 3 hp LYCKA TILL! Sid

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

DATORÖVNING 2: STATISTISK INFERENS.

DATORÖVNING 2: STATISTISK INFERENS. DATORÖVNING 2: STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). CENTRALA GRÄNSVÄRDESSATSEN Enligt

Läs mer

Punktlighet på järnväg 2015 statistiken

Punktlighet på järnväg 2015 statistiken Punktlighet på järnväg 2015 Beskrivning av statistiken Punktlighet på järnväg 2015 Beskrivning av statistiken Trafikanalys Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42

Läs mer

Punktlighet på järnväg kvartal Kvalitetsdeklaration

Punktlighet på järnväg kvartal Kvalitetsdeklaration Punktlighet på järnväg kvartal 4 2017 Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se Ansvarig utgivare: Brita Saxton

Läs mer

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Beskrivande statistik Kapitel 19. (totalt 12 sidor) Beskrivande statistik Kapitel 19. (totalt 12 sidor) För att åskådliggöra insamlat material från en undersökning används mått, tabeller och diagram vid sammanställningen. Det är därför viktigt med en grundläggande

Läs mer

729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581

729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581 Fuzzy logic 880328-2535 Innehåll Fuzzy logic... 1 1. Inledning... 4 2. Jämförelse mellan fuzzy logic och tvåvärdeslogik.... 4 3. Fuzzy sets.... 4 4. Linvistiska variabler... 5 5. Operatorer... 5 6. If-

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Experimentella metoder 2014, Räkneövning 1

Experimentella metoder 2014, Räkneövning 1 Experimentella metoder 04, Räkneövning Problem : Tio mätningar av en resistans gav följande resultat: Mätning no. Resistans (Ω) Mätning no Resistans (Ω) 0.3 6 0.0 00.5 7 99.98 3 00.0 8 99.80 4 99.95 9

Läs mer

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur

Läs mer

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt Datorövning 1 Statistisk teori med tillämpningar Repetition av SAS Syfte Syftet med Datoröving 1 (D1) är att repetera de SAS-kunskaperna från tidigare kurser samt att ge en kort introduktion till de studenter

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Punktlighet på järnväg 2015 Beskrivning av statistiken

Punktlighet på järnväg 2015 Beskrivning av statistiken Punktlighet på järnväg 2015 Beskrivning av statistiken Punktlighet på järnväg 2015 Beskrivning av statistiken Trafikanalys Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42

Läs mer

Handledning för konstruktion av tabeller och diagram med Excel

Handledning för konstruktion av tabeller och diagram med Excel Handledning för konstruktion av tabeller och diagram med Excel 26 APRIL 2013 Inledning Excel är inte konstruerat för att i första hand utföra statistiska beräkningar, men en hel del sådant kan ändå göras.

Läs mer

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller Föreläsning 6 Korstabeller (Tvåvägstabeller) Kap.6.7. En population och två kvalitativa variabler Korstabeller Det kan vara lämpligt att skapa en korstabell över ett datamaterial i följande två fall:.

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl Karlstads universitet Avdelningen för nationalekonomi och statistik Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema

Läs mer

Eulercykel. Kinesiska brevbärarproblemet. Kinesiska brevbärarproblemet: Metod. Kinesiska brevbärarproblemet: Modell. Definition. Definition.

Eulercykel. Kinesiska brevbärarproblemet. Kinesiska brevbärarproblemet: Metod. Kinesiska brevbärarproblemet: Modell. Definition. Definition. Eulercykel Definition En Eulercykel är en cykel som använder varje båge exakt en gång. Definition En nods valens är antalet bågar som ansluter till noden. Kinesiska brevbärarproblemet En brevbärartur är

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

Statistik Lars Valter

Statistik Lars Valter Lars Valter LARC (Linköping Academic Research Centre) Enheten för hälsoanalys, Centrum för hälso- och vårdutveckling Statistics, the most important science in the whole world: for upon it depends the applications

Läs mer

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23 732G71 Statistik B Föreläsning 8 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23 Klassisk komponentuppdelning Klassisk komponentuppdelning bygger på en intuitiv

Läs mer

Obligatorisk uppgift, del 1

Obligatorisk uppgift, del 1 Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten

Läs mer

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p) UMEÅ UNIVERSITY Department of Mathematics and Mathematical Statistics Pre-exam in mathematics Linear algebra 2012-02-07 1. Compute the following matrix: (2 p 3 1 2 3 2 2 7 ( 4 3 5 2 2. Compute the determinant

Läs mer

732G01/732G40 Grundläggande statistik (7.5hp)

732G01/732G40 Grundläggande statistik (7.5hp) 732G01/732G40 Grundläggande statistik (7.5hp) 2 Grundläggande statistik, 7.5 hp Mål: Kursens mål är att den studerande ska tillägna sig en översikt över centrala begrepp och betraktelsesätt inom statistik.

Läs mer

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010 v. 2015-01-07 ANVISNINGAR Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010 Detta häfte innehåller kortfattade anvisningar om hur ni använder Excel under denna laboration. Be om hjälp

Läs mer

Tentamen, EDA501/EDAA20 Programmering M MD W BK L

Tentamen, EDA501/EDAA20 Programmering M MD W BK L LUNDS TEKNISKA HÖGSKOLA 1(6) Institutionen för datavetenskap Tentamen, EDA501/EDAA20 Programmering M MD W BK L 2017 05 31, 8.00 13.00 Anvisningar: Preliminärt ger uppgifterna 9 + 12 + 10 + 9 = 40 poäng.

Läs mer

Kundundersökning mars Operatör: SJ AB Trafikslag: Tåg Sträcka: T30/40 Göteborg-Luleå

Kundundersökning mars Operatör: SJ AB Trafikslag: Tåg Sträcka: T30/40 Göteborg-Luleå Kundundersökning mars Operatör: SJ AB Trafikslag: Tåg Sträcka: T0/0 Göteborg-Luleå Innehållsförteckning Bakgrund och syfte s. Metodbeskrivning s. Klassificering av indexnivåer s. Prioriteringsanalys s.

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala. Olika typer av variabler och skalor Kvalitativ variabel -variabeln antar inte numeriska värden utan bara olika kategorier. vis olika bilmärken, eller man, kvinna. Kvantitativ variabel Antar numeriska värden

Läs mer

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195. Lägesmått Det kan ibland räcka med ett lägesmått för att beskriva datamaterial Lägesmåttet kan vara bra att använda då olika datamaterial skall jämföras Vilket lägesmått som skall användas: Typvärde Median

Läs mer

Punktlighet på järnväg 2016 kvartal 4. Kvalitetsdeklaration

Punktlighet på järnväg 2016 kvartal 4. Kvalitetsdeklaration Punktlighet på järnväg 2016 kvartal 4 Punktlighet på järnväg 2016 kvartal 4 Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Tisdagen den 10 e januari 2017 Ten 1, 9 hp Tillåtna hjälpmedel:

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 2

ÖVNINGSUPPGIFTER KAPITEL 2 ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?

Läs mer

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2 Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2 Laborationen avser att illustrera användandet av normalfördelningsdiagram, konfidensintervall vid jämförelser samt teckentest. En viktig

Läs mer

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00 Examiner: Xiangfeng Yang (Tel: 070 0896661). Please answer in ENGLISH if you can. a. Allowed to use: a calculator, Formelsamling

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 3 Statistiska metoder 1 Dagens föreläsning o Samband mellan två kvantitativa variabler Matematiska samband Statistiska samband o Korrelation Svaga och starka samband När beräkna korrelation?

Läs mer

Stokastiska signaler. Mediesignaler

Stokastiska signaler. Mediesignaler Stokastiska signaler Mediesignaler Stokastiska variabler En slumpvariabel är en funktion eller en regel som tilldelar ett nummer till varje resultatet av ett experiment Symbol som representerar resultatet

Läs mer

Bok: X (fjärde upplagan) Kapitel : 3 Längd, tid och samband Kapitel : 4 Algebra och mönster

Bok: X (fjärde upplagan) Kapitel : 3 Längd, tid och samband Kapitel : 4 Algebra och mönster PLANERING MATEMATIK - ÅK 7 Bok: X (fjärde upplagan) Kapitel : 3 Längd, tid och samband Kapitel : 4 Algebra och mönster Elevens namn: markera med kryss vilka uppgifter du gjort Avsnitt: sidor ETT ETT TVÅ

Läs mer

Punktlighet på järnväg Kvalitetsdeklaration

Punktlighet på järnväg Kvalitetsdeklaration Punktlighet på järnväg 2016 Adress: Torsgatan 30 113 21 Stockholm Telefon: 010 414 42 00 Fax: 010 414 42 10 E-post: trafikanalys@trafa.se Webbadress: www.trafa.se Ansvarig utgivare: Brita Saxton Publiceringsdatum:

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

Datorövning 1: Fördelningar

Datorövning 1: Fördelningar Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS012/MASB03: MATEMATISK STATISTIK, 9 HP, VT-17 Datorövning 1: Fördelningar I denna datorövning ska du utforska begreppen sannolikhet och

Läs mer

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram 2.1 Grundläggande matematik 2.1.1 Potensfunktioner xmxn xm n x x x x 3 4 34 7 x x m n x mn x x 4 3 x4 3 x1 x x n 1 x n x 3 1 x 3 x0 1 1

Läs mer

Förändrade tågförseningar ny höghastighetsjärnväg enligt US2X

Förändrade tågförseningar ny höghastighetsjärnväg enligt US2X 1(12) Kopia till: Förändrade tågförseningar ny höghastighetsjärnväg enligt US2X Inledning Utbyggnad av en höghastighetsbana innebär ett tillskott av kapacitet till järnvägsnätet. De tågförseningar som

Läs mer

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel ANVISNINGAR Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel Detta häfte innehåller kortfattade anvisningar om hur ni använder Excel under denna laboration. Be om hjälp när/om ni tycker att

Läs mer

Uppgift 1. Deskripitiv statistik. Lön

Uppgift 1. Deskripitiv statistik. Lön Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot

Läs mer

Effektredovisning för BVLu_018 Luleå-Kiruna ökad hastighet

Effektredovisning för BVLu_018 Luleå-Kiruna ökad hastighet PM Effektredovisning för BVLu_018 Luleå-Kiruna ökad hastighet Handläggare: Telefon: e-post: Innehåll 1 Effektbeskrivning av åtgärd...3 1.1 Allmänt...3 1.2 Trafikering...3 1.3 Restider/transporttider/avstånd...3

Läs mer

Styrteknik: Binära tal, talsystem och koder D3:1

Styrteknik: Binära tal, talsystem och koder D3:1 Styrteknik: Binära tal, talsystem och koder D3:1 Digitala kursmoment D1 Boolesk algebra D2 Grundläggande logiska funktioner D3 Binära tal, talsystem och koder Styrteknik :Binära tal, talsystem och koder

Läs mer

A study of the performance

A study of the performance A study of the performance and utilization of the Swedish railway network Anders Lindfeldt Royal Institute of Technology 2011-02-03 Introduction The load on the railway network increases steadily, and

Läs mer

Kundundersökning mars 2014. Trafikslag:

Kundundersökning mars 2014. Trafikslag: Operatör: Trafikslag: Sträcka: Veolia Transport Tåg Innehållsförteckning Bakgrund och syfte Sid 3 Metodbeskrivning Sid 4 Klassificering av indexnivåer Sid 5 Drivkraftsanalys och prioriteringslista Sid

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Optimering av resväg genom Sverige

Optimering av resväg genom Sverige Umeå Universitet 2007-05-28 Institutionen för tillämpad fysik och elektronik Optimering av resväg genom Sverige Magnus Melander Kristina Odeblad Sammanfattning Kostnaden för att besöka fjorton städer i

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller S0004M Statistik 1 Undersökningsmetodik. Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller Till denna laboration ska det angivna datamaterialet användas och bearbetas med den statistiska

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Torsdagen den 22 mars 2018 TEN1, 9 hp Tillåtna hjälpmedel: Miniräknare

Läs mer

Dataanalys kopplat till undersökningar

Dataanalys kopplat till undersökningar Dataanalys kopplat till undersökningar Seminarium om undersökningsmetoder för förorenade områden, Malmö 6-7 maj Jenny Norrman, SGI, Chalmers FRIST På säker grund för hållbar utveckling Innehåll Inledning

Läs mer

2.1 Minitab-introduktion

2.1 Minitab-introduktion 2.1 Minitab-introduktion Betrakta följande mätvärden (observationer): 9.07 11.83 9.56 7.85 10.44 12.69 9.39 10.36 11.90 10.15 9.35 10.11 11.31 8.88 10.94 10.37 11.52 8.26 11.91 11.61 10.72 9.84 11.89 7.46

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller: Statistik 2 Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen SST021 ACEKO16h, ACIVE16h 7,5 högskolepoäng Tentamensdatum: 2018-05-31 Tid: 14.00-19.00 Hjälpmedel: Valfri miniräknare Linjal

Läs mer

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip Tentamensdatum 2013-03-27

Läs mer

Trafikverkets modell för beräkning av linjekapacitet

Trafikverkets modell för beräkning av linjekapacitet 1(5) Trafikverkets modell för beräkning av linjekapacitet Detta dokument beskriver Trafikverkets modell för beräkning av linjekapacitet. Modellen är framtagen för beräkning vid enkelspår respektive dubbelspår.

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006 Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 9

ÖVNINGSUPPGIFTER KAPITEL 9 ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar

Läs mer

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen

Läs mer