Project report. TNM048 - Information visualization

Relevanta dokument
732G60 - Statistiska Metoder. Trafikolyckor Statistik

The sexy job in the next 10 years will be statisticians, said Hal Varian, chief economist at Google. And I m not kidding.

Statistics explorer. Tobias Åström, NComVA Norrköping Communicative Visual Analytics

Välkomna till KUSK utbildningsprojekt. Kunskap, utveckling, statistik, kommunikation

Usability Partners. World Usability Day 2012 Användbarhet av finansiella system

SAMMANTRÄDESPROTOKOLL Tekniska nämnden Sammanträdesdatum

Kom igång med FolkhälsoStudio en manual

Informationsvisualisering TNM048

Bruksanvisning för SeSAm GENETICA : Mendels Lagar

Grafisk visualisering av en spårbarhetslösning

Vägtrafikskador personer omkom i vägtrafikolyckor under personer skadades svårt i vägtrafikolyckor under 2017.

Befolkning i Halland. Källa: SCB

Lathund SAS Visual Analytics för läsanvändare

Samhällsmedicin, Region Gävleborg: Rapport 2015:4, Befolkningsprognos 2015.

Visualisering av samverkan

RSI Road Status Information A new method for detection of road conditions

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Oppositionsprotokoll-DD143x

Från Smart TV till Smartare upplevelse Av: Kim Huber och Connie Huanca

1d, Individuellt Designkoncept, GPS-navigering för cykel i stadsmiljö

Omkomna personer vid polisrapporterade vägtrafikolyckor, antal dödade per invånare. Åren

Personskador i trafiken STRADA Värmland

Datorövning 2 Statistik med Excel (Office 2007, svenska)

När vi läste Skolverkets rapport Svenska elevers matematikkunskaper

The power of simplicity

Användarguide Indikatorlabbet

Personskador i trafiken STRADA Värmland

TI-Nspire internationell forskning: Pilotprojekt

version januari 2019 Manual SMHI klimatdata

Diagram. I detta kapitel lär du dig: m Diagrammets beståndsdelar. m Att skapa både inbäddat diagram och diagramblad. m Att ändra diagramform.

Analysverktyget Program Version:

Transformer i sannolikhetsteori

Kortfattad instruktion för Crystal Reports. Kom i gång med Crystal Reports. Instruktion Crystal Reports 2014

Användardokumentation för Rullande Resultatskärmar i lokalt nätverk

FolkhälsoAtlas Labmiljö - en handledning

Beskrivning av DriftDagboken v.1.3

Interaktiva applikationer för dator (WPF) och web (Silverlight) Grafisk utvecklingsmiljö. Hela produktioner: design, layout, animationer, skins, etc.

Dokumentation - Fälthanteraren

SIPP Warehouse 2.0 är webgränssnittet för Industriarmaturs SIPP-produkter. Detta dokument beskriver hur detta webgränssnitt är uppbyggt.

Manual: Rapporter v.3

27 september Finansieringsguiden. Sammanställning och slutleverans Verksamt Värmland

Bruksanvisning för hjälpbegäran

Projektarbete 2: Interaktiv prototyp

I Hugin finns definitioner och beskrivningar presenterade kopplat till varje indikator.

I Munin finns definitioner och beskrivningar presenterade kopplat till varje indikator.

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Lathund för statistikuppgifterna i Nyhetsvärderaren tips för lärare

SKADADE I TRAFIKEN En sammanställning av antal skadade och omkomna i trafikolyckor. Dalibor Sentic Stadsbyggnadsförvaltningen

Statistiska centralbyrån. Statistikatlasen

Efter inloggningen kommer du till applikationens huvudfönster

Nibe xx45 Viewer. Ett program för visualisering av Nibes loggar WebIQ:s Energibutiken

MANUAL. FÖR ADMINISTRATION AV e TRUCK

15 Skapa en Start-Diskett

Undersökning av däcktyp i Sverige. Vintern 2014 (januari mars)

Projektet. TNMK30 - Elektronisk publicering

Cheat Sheet Nybörjarguide för Facebook och Instagram

En arbetssätt du bör lära dig Så använder du ort- och kartfunktionen

Oskyddade Trafikanter

Bemästra verktyget TriBall

Microsoft Expression Blend + Sketch Flow

Lathund för statistikuppgifterna i Nyhetsvärderaren tips för lärare

Träff 1 Skissa & Extrudera

Trafiksäkerhetsutvecklingen

Delrapport för projektet Granbarkborrens förökningsframgång 2010

Lathund - Redaktörer

STRADA Värmland

Lathund för att ta skärmdumpar för supportärenden samt dölja personuppgifter

Manipulation med färg i foton

Utveckling av ett grafiskt användargränssnitt

PNSPO! PLC Backup Tool. 14 mars 2012 OMRON Corporation

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER.

Pivottabeller i Excel } Med e-learning

Juni Manual. Mina anläggningar

Daniel Clarhed

Innehåll för Light Användare

Introduktion till Word och Excel. 14 september 2008

Microsoft. Access Grundkurs.

Väg 56, X-Länsgräns - Hedesunda

Pivottabeller i Excel } Med e-learning

Manual till webbkartornas grundläggande funktioner

Undersökning av däcktyp i Sverige. Vintern 2012 (januari mars)

1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05

Kundhandledning för EBIS. E-space Business Intelligence System. Version

Installationsanvisningar för abc Datorövningar

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Eva Hellstöm - Christina Strand

TEM Projekt Transformmetoder

MVE051/MSG Föreläsning 7

Rev Oct Användarguide Smartsign 9

Lathund SSK Gå till 2. Skriv in användarnamn/e-post 3. Skriv in lösenord 4. Logga in. Startsidan

INFORMATION FRÅN VITEC. Rapportgenerator

Undersökning av däcktyp i Sverige. Januari/februari 2010

OBJEKTORIENTERAD PROGRAMVARUUTVECKLING. Övningstentamen 1

Registrering av ny patient

Bemästra verktyget TriBall

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Manual. Verktyg för skolanalys. Astrakan. Motion Chart på enkelt sätt. Artisan Global Media

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

TransportViz: Visualisering av transportflöden

Optimering av olika slag används inom så vitt skilda områden som produktionsplanering,

Transkript:

Project report TNM048 - Information visualization 2012-03-18 By: Nils Dickner (nildi397@student.liu.se) Johan Lindh (johli010@student.liu.se) 1

Abstrakt Att utforska och förstå multivariat data har alltid varit problematiskt, hypoteser har varit svåra att göra och slutsatser svåra att ta. Genom olika visualiseringsmetoder kan man få en djupare förståelse för data, visualisering är därför en viktig metod för att förmedla och utforska multivariat data. Detta projekt är en exploratorisk analys över Sveriges trafikolyckor mellan åren 2006 2010 med syftet att få en inblick i och djupare förståelse för data. Innehåll Abstrakt... 2 Bakgrund... 3 Data... 4 Datautvinning... 4 Visualisering... 4 Choroleph map... 5 Scatter plot... 5 Parallel coordinates plot... 6 Tidslinje... 6 Informations fönster... 7 Verktygsfönster... 7 Slutsats... 10 Framtida arbete... 11 Månadsdata... 11 Tidslinjen... 11 Datautvinning... 11 Prognoser... 11 Referenser... 12 APPEDIX A:Användbarhets test... 13 2

Bakgrund Bakgrunden till projektet kommer ursprungligen från projektuppgiften i kursen Informationsvisualisering (TNM048) som gick ut på att göra en informationsvisualisering av datakällor, d.v.s spatial, temporal och multivariat data. Detta gjordes medhjälp av ramverket GeoAnalytics Visualisation(GAV) som användes i projektet för att göra informationsvisualiseringar. Det var även rekommenderat i kursen att använda sig av.net, C# med DirectX på grund av att labbarna och kursen var fokuserat på den plattformen. I Sverige sker det allt för många trafikolyckor och målet med noll tolerans har blivit svårt att nå. Detta var grunden till att vi valde att göra ett visualiseringsprojekt kring alla trafikolyckor i Sverige. Syftet var att försöka att visualisera trafikverkets olycksstatistik och göra det mer informativt för allmänheten och för oss själva. Vår idé var att systemet skulle frambringa relevant information vilket i sin tur hade kunnat resultera i hypoteser kring den data som utforskades, d.v.s. en utforskande analys. Programmet hade även kunnat fungerar i ett pedagogiskt syfte och som ett verktyg för framtida vägarbeten. Till exempel, genom att veta var det sker mest älgolyckor vid en viss tidpunkt så kan man anpassa arbetet och göra det mer effektivt. 3

Data Datan som användes under projektets gång är tagen från Trafikverkets- och Statistiska centralbyråns hemsidor. För mer information om datan se referens [1][2]. I början av projektet krävdes det en omformulering av den data som innehöll olyckstyper på grund av att Trafikverket sparat all länsinformation separat. Informationen klipptes manuellt ut från varje ark och placerades i två separata filer, en för omkomna och en för skadade. Huvudsyftet var att skapa bra struktur och underlätta för framtida hantering av data. Detta gjordes även för den data som innehöll månadsstatistik. För dynamisk hantering av länsdata skapades två filer, innehållande län- och folkmängds data. Datautvinning För att kunna hantera tidsdata på ett dynamiskt sätt skapades det två klasser som hanterade GAVs datakubar. Den ena klassen hanterade olyckstyper medan den andra klassen hanterade månadsdatan. [3] Dessa klasser var anpassade för att räkna ut det totala antalet olyckor samt risken för att bli skadad eller dödad i trafiken. Algoritmen för att räkna ut sannolikheten gjordes medhjälp av additionsformeln. (1) I Ekvation 1 representerar A och B två oförenliga händelser som ej kan ske samtidigt. [4] Sannolikheten för varje händelse räknades ut medhjälp av medianen för folkmängden under ett specifikt årsintervall för varje län. Sannolikheten multiplicerades sedan med en faktor på. Visualisering För att göra programmet representativt och informativt krävdes det en diskussion om vilka visualiseringar som skulle användas. Målet var att representera data så att det blir lätt för användaren att förstå. De metoder som diskuterades fram förklaras mer i detalj nedan. 4

Choroleph map Figur 1: Choropleth map över Sverige. Denna kartvisualisering är en GAV komponent, där huvudsyfte är att ge användaren en bra överblick över alla Sveriges län, men också ge användaren en snabb feedback över skillnader mellan olika län. Kartan ger användaren möjligheten att klicka på ett specifikt län eller välja län i comboboxen längst upp till höger i figur 1. Resultatet är sedan kopplat till de andra visualiseringarna som gör att användaren få en bättre förståelse i vad datan kommer ifrån och var den är riktad till. I kartans vänstra del visas en färglegend om vad färgkartan visualiserar, användaren har möjligheten att interagera genom att bestämma justera färgtröskeln. Den avsedda tanken med färgtröskeln är att ge användare större kontroll över vad som skall visas på kartan. Valet av färg är anpassat så att färgskildringen ska vara lätt att urskilja och att det ska fungera som ett effektivt filter. I figur 1 visualiseras färgkartan över risken att dö i trafiken mellan åren 2006 till 2010 där Gävleborgs län är markerat med färgen svart. Scatter plot Figur 2: Scatter plot i 2 dimensioner 5

En scatter plot ger en mer detaljerad informations visualisering och är en GAV komponent. Syftet med scatter plotten är att visualisera relationer mellan olyckstyperna för alla län. Detta för att lättare upptäcka mönster och samband mellan län men även för att fokusera mer på ett specifikt län. Färgkartan för scatter plotten är samma som från figur 1, detta för att undvika missförstånd mellan användaren och systemet. Användaren har möjligheten att utforska dessa samband genom att själv kunna välja vad som ska visas på axlarna. På så sätt blir scatter plotten mer dynamisk och gör att den blir mer intressant för användaren. Scatter plotten är också utrustad med en tooltip för att ge mer detaljerad data till användaren. I figur 2 visar scatter plotten en bild över single/turn-off där tooltipen visar information om Gävleborgs län. Parallel coordinates plot Figur 3: Parallel coordinates plot Parallel coordinater plot visas i figur 3 och är en GAV komponent. Dess syfte är att fungera både som ett filtreringsverktyg och som ett markeringsverktyg för olyckstyp datan. Medhjälp av Parallel coordinates kan användaren specificera färgkartan för hela programmet genom att markera rubrikerna i plotten eller filtrera ut län genom att justera parametrarna för varje rubrik. Användaren har också möjligheten att markera flera rubriker. Det positiva med en parallel coordinates plot är att den är effektiv på att visualisera spatial data och den kan markera ut data för ett specifikt län. Tidslinje Figur 4: Tidslinje över samtliga län mellan åren 2006-2010 6

Tidslinjen är en egen modifierad GAV komponent som visualiserar en överskådlig bild över alla läns olycksstatistik över tiden. Huvudsyftet är att ge användaren en klar och prioriterad bild av alla läns statistik. Den svarta linjen i figur 4 illustrerar Gävleborgs läns omkomnas olycksstatistik mellan åren 2006-2010. Informations fönster Figur 5: Informations fönster som representerar data för Gävleborgs län 2006 Informations fönster som visas i figur 5 representerar relevant data för ett specifikt län. Huvudsyftet är att ge användaren snabb relevant data utan att användaren behöver leta efter den. Verktygsfönster Figur 6: Verktygsfönster Huvudsyftet med verktygsfönstret är att kunna låta användaren filtrera data utifrån användarens egna specifikationer. Filtret som användare kan agera med kan filtrera åren, enheterna och olyckstyp. Datan som filtreras uppdateras automatiskt till tidslinjen, parallel coordinates plot, scatter plotten samt choropleph mappen. Uforskning av data Informationen som programmet förmedlar via den kvantitativa datan kan filtreras och utforskas på ett flertal sätt och vis. Samtliga data över landet är kartlagd efter färg för valda filter av olika slag. Med hjälp av dessa dynamiska verktyg kan kopplingar för mellan den kvantitativa datan ske. Vid visualisering av risken att omkomma i trafiken någon gång mellan åren 2006 till 2010 fås figur 7. Färgkartan som visualiseras bygger på två stycken färgskalor som representerar två olika risk spann att omkomma i trafiken, den blå respektive den röda färgkartan visualiserar den lägre respektive den högre risken att omkomma i trafiken för den valda parametern 236,15*10^-6%. Medhjälp av detta har landets olika riskzoner separerats in i två lätt skiljbara nivåer. Detta ger mönster i kartan där man snabbt kan se att riskerna för att omkomma i trafiken i landets norra del är betydligt högre än att omkomma i landets sydliga del. 7

Figur 7: Visualisering av Sverige För att visualisera de tre farligaste länen att befinna sig i trafiken tar man tag i färgtröskeln och filtrerar den uppåt tills endast tre stycken av Sveriges samtliga län befinner sig i den gul-röda färgkartan. Detta resulterar i figur 8. Figur 8: Visualisering av Sverige I trafiken kan det vara intressant att vara mån om risken för att bli skadad vid exempelvis en vilt olycka med kombination av en singelolycka för ett specifikt år, med hjälp av att filtrera färgkartan efter rådjur, ren, älg och singel olyckor i parallel coordinates plot fås resultat om denna olycksrisk, se figur 9. Detta fall resulterar i att i västernorrlands län löper störst risk att bli skadad i trafiken gällande de valda olyckstyperna. 8

Figur 9: Visualisering av Sverige För vidare undersökning av västernorrlands län klickar man nu på länet, exempelvis via kartan. Vid detta skede representeras specifik data för länet i informationsrutan uppe till höger. Vid byte till scatter plotten kan ytterligare specifika jämförelser göras och information fås. Genom att välja x respektive y axeln till exempelvis singel respektive älg olycka kan man göra snabba jämförelser mellan dessa, genom att hålla muspekaren över fås den exakta data för de båda olyckstyperna, se figur 10. Figur 10: Visualisering av Sverige 9

Slutsats De slutsatser man kan dra medhjälp av programmet är för det första att antalet olyckor i trafiken har minskat från år 2006 till 2010, detta har därför bidragit till att risken för att omkomma eller bli skadad i trafiken minskat. Man kan även se trender över vilka månader som det sker flest eller minst olyckor i trafiken, data visar på att det flesta olyckor som inträffar är på sommaren (Juni, Juli) och minsta antalet olyckor på vintern (Februari, Mars). Gällande viltolyckor kan man även här se mönster, att i Sveriges största städer är risken för olycka lägre än ute på landsbygden. Mönster i kartan kan även ses gällande olyckor i trafiken, bland annat att i de nordligare länen i Sverige löper en större risk för att bli utsatt för en trafikolycka jämförelsevis med majoriteten av de sydligare länen i Sverige. Utifrån programmet kan man även få fram de vanligaste olyckorna som hela Sverige har under ett år, den datan visar på att singel olyckor är den vanligaste olyckstypen för samtliga av åren mellan 2006 2010. Med detta i åtanke kan det ses klarare varför det löper större risk i att bli skadad i trafiken i landets norra län. Sammanfattningsvis, i nordligare länen bor det färre folk på större ytor gentemot landets sydliga län där det generellt bor fler människor per yta vilket då leder till mer trafikerade vägar och färre singelolyckor. Vi har dock under projektets gång kommit till insikt i att den information som vi har tagit oss an inte är tillräcklig för att kunna göra några helt korrekta slutsatser om olyckor i trafiken, då olyckor kan bero på en mängd av olika variabler, till exempel vägskick, trafikmängd, hastighetskameror, hastighetsbegränsningar etc. 10

Framtida arbete Månadsdata Vi bestämde under projektets slut att inte visa månadsdatan för användaren. Detta berodde på att vi inte hade någon månadsdata över olyckstyperna eller folkmängden. Dock om vi hade fokuserat mer på månadsdatan så hade programmet blivit mer detaljerat och uträkningarna hade blivit mer specifika. Den framtida huvudidén var att implementera en komponent där användaren själv får välja vilken sorts av data som ska visas, d.v.s månadsdata, årsdata etc. Tidslinjen Tidslinjen hade kunnat vara mer detaljerad och mer interaktivt för användaren. Grafen hade kunnat ha en dynamisk grid som markera ut var användaren är i datan och märkningarna på x-axeln hade kunnat vara dynamiska så att man hade kunnat utöka datan vilket skulle leda till ett mer generellt program. Datautvinning Programmet hade kunnat hämta data från en databas istället för ett excellark. Resultatet hade framförallt gjort att programmet hade blivit mer generellt och aktuellt då olycksdata uppdateras kontinuerligt. En vidare utveckling på programmet hade varit att koppla ihop vår data med externa faktorer såsom väder och fartkameror. Prognoser Programmet skulle kunnat räkna ut framtidsprognoser utifrån gammal data och därefter dra viktiga slutsatser som hade kunnat vara användbar data i verkligheten. 11

Referenser [1] Trafikverket; 2012. http://www.trafikverket.se/privat/trafiksakerhet/olycksstatistik/. Officiell hemsida. [2] Statistiska centralbyrån; 2012. http://www.scb.se/. Officiell hemsida [3] Gav framework; 2012. http://vitagate.itn.liu.se/gav/framework/. Officiell hemsida [4] Gunnar Blom, Jan Enger, Gunnar Englund, Jan Grandell, Lars Holst. Sannolikhetsteori och statistikteori med tillämpningar. Sverige, Studentlitteratur AB; 2005 12

APPEDIX A:Användbarhets test Undersökningen bestod av två delar, där första delen av testet fokuserade på användarens prestationsförmåga medan den andra undersökningen utgick ifrån att få ut användarens feedback och känslor vid interaktion med systemet. Huvudsyftet med testets delar var att få en så effektiv användbarhets mätnings som möjligt genom att undersöka och mäta grundstenarna i användbarhet, d.v.s ändamålsenlighet, effektivitet och tillfredsställande. I första delen av testet lät vi användaren lösa fem uppgifter som var relaterade till olika delar inom systemet, under denna tid observerade vi användaren och mätte användarens prestationstid för varje uppgift. Testet utfördes på 4 testpersoner, de resultat och uppgifter som användarna fick var: - Vilket år är största risken att bli skadad i trafiken för invånare i Norrbottens län: (54 sekunder) - I vilket län löper det minst risk i att bli dödad i trafiken mellan 2006 och 2007: (102 sekunder) - I vilket län löper det störst risk att bli skadad av ett djur år 2008: (97 sekunder) - Vilken månad dör minst/mest i trafiken 2010: (44 sekunder) - Hur stora är riskerna att bli skadad av en älg respektive en ren i värmlands län mellan 2006 till 2010: (125 sekunder) I andra delen av testet lät vi användaren utvärdera systemet genom att använda sina åsikter och känslor. Detta gjordes medhjälp av en muntlig intervju mellan användaren och en intervjuare. Intervjuaren ställde olika frågor om systemet samtidigt som han antecknade svaren från användaren, användaren fick även chansen att lägga till egna synpunkter på systemet utöver de ställda frågorna. De viktigaste slutsatserna från användarnas svar var följande: - Användaren upplevde det som svårt att veta vilka typer av funktionaliteter de olika komponenterna i programmet hade, därför föreslogs det att någon form av information för var och en av komponenterna i programmet. - Tidslinjen var svår att tyda då höjden på komponenten var låg. Detta ledde till en uppdatering av programmet vilket resulterade i en högre och tydligare tidslinje. - Samtliga användare upplevde att de två dynamiska tidsaxlarna kändes förvirrande. Denna förvirring är nu minskad då en ny layout samt att en rubrik för informationsrutan skapats. - Att navigera mellan Sveriges olika län ansågs som svårt för de som inte har kunskap om länens geografi över landet, förslag om någon form av lista uppkom för att minska detta användarbarhets problemet. Detta förslag togs till akt och programmet har nu möjlighet att navigera mellan länen med hjälp av en combobox innehållande namnen på Sveriges län. - Användaren önskade även en reset knapp för att återställa programmet till ursprungsläget. Detta är nu skapat efter användarens önskemål. 13