Sannolihetsbaserad modellering av flygplansdata -med fokus på ankomsttid

Storlek: px
Starta visningen från sidan:

Download "Sannolihetsbaserad modellering av flygplansdata -med fokus på ankomsttid"

Transkript

1 Sannolihetsbaserad modellering av flygplansdata -med fokus på ankomsttid I samarbete med Flightradar24.com JOSEFIN AHNLUND OCH CAROLINE MAGNUSSON JAHNLUND@KTH.SE CARMAG@KTH.SE Examensarbete i Teknisk fysik, Grundnivå (SA104X) Kungliga Tekniska högskolan Computer Science and Communication (CSC) Handledare: Carl Henrik Ek Examinator: Hedvig Kjellström

2

3 Referat Med Flightradar24:s realtidstjänst kan flygplan över hela världen studeras via dess position på en karta. För denna tjänst används data som kontinuerligt sänds ut av flygplan i luften och innehåller parametrar som dess position, höjd, riktning och hastighet. Genom att bearbeta och ta fram samband för sådant historiskt flygplansdata undersöks i projektet om en sannolikhetsmodell över flygplans förflyttning kan konstrueras. Modellen skall sedan implementeras i Flightradar24:s tjänst för att ta fram en beräknad ankomsttid. Detta är intressant vid förseningar då den på förhand angivna ankomsttiden inte stämmer.

4 Abstract Probabilistic modelling of flight data - with focus on arrival time Flightradar24 is a company that provides services for displaying aircraft position and other aircraft information for flights in real time. The information originates from data continously transmitted by aircrafts, which contains parameters such as position, height, direction and velocity. The purpose of the project is to investigate how such historical data can be used to predict airplain arrival time. In order to do so, a probability model is developed based on the historical data.

5 Innehåll 1 Introduktion 1 2 Bakgrund Flightradar Maskininlärning Metod 15 4 Utförande Databehandling Parametersamband Sammansättning av sannolikhetsmodellen Beräkning av ankomsttid Testning Resultat Parametersamband Sannolikhetsmodellen Ankomsttid Diskussion Parametersambanden Felkällor Modellens generalitet Beräkning av ankomsttid Vidareutvecklingar Hela flygvägen som input Ankomsttid: Interpolering Ankomsttid: Idéer Slutsats 57

6

7 Introduktion Internet har möjliggjort en helt ny typ av realtidstjänster som kan nå en stor mängd användare. En av dessa tjänster är att se var alla världens flygplan befinner sig i just detta nu, vilken bana de har tagit samt övrig information om ankomstort, avreseort, flygplanstyp med mera. Svenskbaserade Flighradar24 är ett av de företag som lanserar denna typ av tjänst, och det är i samarbete med dem som vi har utfört vårt projektarbete. Projektet i korthet Ett flygplan i luften skickar med jämna mellanrum ut information innehållande ett antal parametrar som dess aktuella position, höjd, riktning och hastighet. Informationen tas emot av Flightradar24 som använder den för att visa flygplanets aktuella position på en karta. Datat lagras sedan i Flightradar24:s databaser. Genom att bearbeta och ta fram samband för detta lagrade historiska data kan en sannolikhetsmodell över flygplanets förflyttning tas fram. Modellen skall kunna anpassa sig efter aktuell flygväg, ta in de givna parametrarna för en mätpunkt och ange sannolikheten för att denna mätpunkt är korrekt. Givet en mätpunkt i realtid kan således sannolikheten för en framtida mätpunkt maximeras. Denna metod används för att ta fram en uppskattad ankomsttid genom att finna den tid som maximerar sannolikheten att flygplanet befinner sig på ankomstorten. Problemformulering Projektets uppgift är att undersöka om det går att ta fram en modell som korrekt beskriver ett flygplans beteende för en viss flygväg. Därefter skall modellen användas för att ta fram en beräknad ankomsttid. Det verktyg som används är sannolikhetsbaserad maskininlärning. Syfte Då flygplan inte alltid kommer fram enligt tidtabell finns det ett intresse för att kunna förutsäga en ankomsttid. På detta sätt kan förseningar förutspås och förmedlas till Flightradar24:s användare, vilket kan vara intressant för någon som till exempel ska hämta upp en resenär på flygplatsen. Detta gör Flightradar24:s tjänst lite mer kraftfull vilket gagnar dem som företag - detta är också målet för vårt samarbete. 1

8

9 Bakgrund Detta bakgrundskapitel syftar till att ge projektet ett sammanhang och presentera begrepp som ligger till grund för fortsatta delar. Det inleds med en mer ingående beskrivning av företaget Flightradar24:s tjänst i avsnittet Flightradar24. Därefter görs en genomgång av de teoretiska verktygen för projektet i avsnittet Maskininlärning. 2.1 Flightradar24 Figur 2.1. Screenshot från Flightradar24:s hemsida Flightradar24 är ett företag som startades 2010 och vars tjänst i nuläget finns som websida och mobilapplikation. I tjänsten visas flygplans position på en världskarta i realtid. Om man klickar på ett flygplan visas dess tidigare bana som en kurva och information om dess nuvarande hastighet, höjd samt avreseort och ankomstort görs tillgänglig. Varje månad används Flightradar24:s tjänster av 14 miljoner användare [3]. Bland användarna finns allt från intresserade privatpersoner till taxichaufförer som ska hämta resenärer på flygplatsen till flygplatspersonal och piloter som blir hjälpta i sitt yrke av tjänsten. 3

10 KAPITEL 2. BAKGRUND Det finns två olika sätt Flightradar24 kan ha fått data från ett flygplan på, genom ADS-B-teknik och genom FAA-data. Detta beskrivs mer ingående nedan ADS-B 70% av flygplanen i Europa och 30% av flygplanen i USA använder sig av ADS-B-teknik för att skicka information till andra flygplan och flygplatser [3]. ADS-B står för Automatic Dependent Surveillance Broadcast. Den skickade informationen består av ett antal parametrar: Identifikationsnummer för det specifika flygplanet Tidsangivelse Longitud Latitud Höjd Hastighet Riktning Flygplanets position i form av longitud och latitud bestäms genom kontakt med GPS-satellit. Informationen sänds och mottas som radiovågor med frekvensen 1090 MHz i Europa och frekvensen 978 MHz i USA [6]. Flightradar24 har drivit utvecklingen i att placera ut mottagare för denna frekvens och på så sätt utöka det område där signalen kan uppfattas. Genom att underlätta för privatpersoner att själva skaffa och installera mottagare har täckningen utvidgats till att i nuläget täcka stora delar av världen. Mottagarna är uppkopplade mot internet och vidarebefordrar flygplansdatat till Flightradar24:s servrar. När datat inkommit till Flightradar24 tas ytterligare information om flygplanet fram genom att matcha dess identifikationsnummer mot externa databaser hos till exempel flygplatser. Denna ytterligare information är bland annat avreseort, ankomstort, flygplanstyp och flightnummer. Varje flygning tilldelas ett unikt identifikationsnummer kallat för flightid och lagras därefter i Flightradar24:s databas [3]. 4

11 2.1. FLIGHTRADAR FAA I USA används i huvudsak radar som positionsbestämning för flygplan och merparten av flygplanen över Kanada och USA är därför osynliga för ADS- B-mottagare. Flightradar24 köper därför in denna flygplansdata från FAA (Federal Aviation Administration) [5]. FAA-datan uppdateras kontinuerligt och innehåller samma parametrar som ADS-B-datan men är dock 5 minuter fördröjd på grund av regleringar. De flygplan för vilka det varken finns ADS-B eller FAA-data syns inte på Flightradar24:s hemsida och finns inte representerade i deras databas. Det är därför viktigt att poängtera att datan inte är heltäckande Flightradar24:s nuvarande modeller Beräknad ankomsttid I mobilapplikationen finns även en grov uppskattning av ankomsttiden som presenteras i figur 2.2. Denna modell baseras på det vanliga sambandet mellan hastighet, sträcka och tid. Den kvarvarande tiden på flygningen t beräknas utifrån avstånd till destinationen s dividerat med nuvarande hastighet v. Figur 2.2. Skiss över hur Flightradar24:s modell för beräkning av ankomsttid fungerar. 5

12 KAPITEL 2. BAKGRUND För att ta fram en ankomsttid med hjälp av ovannämnda modell används formeln: Ankomsttid = t nuvarandepunkt + t + C (2.1) C är en pålagd konstant för landningstiden som i nuläget ligger på 15 minuter. Upplösning Om ett flygplan befinner sig på hög höjd så sparas och visas färre datapunkter i tjänsten, detta eftersom parametrarna förändras mindre för ett flygplan på hög höjd. Vid landning är upplösningen större och man sparar och visar fler datapunkter för att få till en snygg landningskurva. 6

13 2.2. MASKININLÄRNING 2.2 Maskininlärning Maskininlärning innebär att skapa ett system som kan lära sig av data. Typiskt används det då man söker efter mönster och trender i stora datamängder. Inom maskininlärning tas en modell fram baserad på känd data som sedan skall kunna ta in icke känd data och göra förutsägelser om denna. Det finns olika typer av maskininlärningsmetoder som passar för att modellera olika typer av problem. Ett problems karaktär och dess datas konfiguration avgör vilken typ av metod som framgångsrikt kan modellera problemet. Ponera att vi har ett problem med en stor datamängd av flera olika parametrar, bestående av ett beteende som upprepas med viss variation. Om vi vill finna ett sätt att förutsäga hur okänd data från samma problem skall bete sig, kan ett tillvägagångssätt vara att finna det generella beteendet hos den kända datamängden. Detta generella beteende kan sedan appliceras på den okända datan för att göra förutsägelser om denna. En metod för att finna det generella beteendet är att ta fram det mest sannolika beteendet hos datamängden med hjälp av sannolikhetsbaserad maskininlärning. Då projektet tillhör den typ av problem som beskrivits ovan har modelleringen utförts med koncept inom just sannolikhetsbaserad maskininlärning. Särskilt viktiga bland dessa koncept är Maximum Likelihood-metoden och Bayesisk sannolikhetslära. Detta kapitel syftar till att ge en teoretisk bakgrund och underbyggnad till framtagningen av modellen genom att förklara dessa koncept. I fortsättningen av detta avsnitt gås först generell modellframtagning igenom och därefter hur modellframtagningen går till rent praktiskt i denna typ av projekt. Efter förberedelser i form av avsnitt om Normalfördelningen och Bayesisk sannolikhetslära underbyggs slutligen den praktiska modellframtagningen med en teoretisk framställning av Maximum Likelihood-metoden. Figur 2.3. Thomas Bayes , upphovsmannen till Bayes sats 7

14 KAPITEL 2. BAKGRUND Generell modellframtagning Experiment- och testdata Som nämnt ovan är målet att ta fram en modell baserad på känd data som kan ta in icke känd data och göra förutsägelser om denna. Detta utförs genom att dela in den tillgängliga datamängden i två delar; experimentdata och testdata. Experimentdatat används för att ta fram och träna modellen. Testdatat används därefter för att testa hur bra modellen fungerar på nytt data. Det är viktigt att indelningen av experiment- och testdata sker slumpmässigt för bästa resultat. En icke slumpmässig indelning skulle kunna leda till en vinkling av experimentdatat och därigenom av den modell som tas fram. Modellen blir då dålig på att beskriva det generella beteendet hos datat vilket gör att den presterar dåligt för nytt data [1]. Notation modellframtagning Givet ett dataset bestående av ett antal parametrar, undersöks i ett första steg om det går att finna något inbördes samband mellan två eller flera av parametrarna. Detta utförs ofta med automatisk kurvanpassning i något programspråk där modellen f i sambandet f(x) = y söks, givet att x och y är två parametrar. När hela datasetet för en viss variabel åsyftas uttrycks detta med vektornotation som x eller y. Vidare införs en parameter w som anger de koefficienter i modellen f som skall anpassas till bestämt data. Detta uttrycks f(x, w) = y. Även standardavvikelsen σ införs vilken anger avvikelsen för värdena y från de beräknade värdena f(x). Det totala antalet datapunkter i datamängden betecknas N. Occam s razor En av de riktlinjer som bör tillämpas inom valet av modell är Occam s razor [7] som på fri tolkning lyder: Om två modeller beskriver ett fenomen lika bra skall den som är enklast väljas. Analogt med detta bör en modell med så låg frihetsgrad som möjligt väljas, detta även för att undvika problem med s k overfitting, se figur 2.4. En modell med högt gradtal kommer nämligen att anpassa sig väldigt väl till de specifika datapunkterna men är dålig på att fånga det generella beteendet. Problem med stora oscillationer mellan datapunkter och i ändpunkter förekommer också. Detta leder till att felet mellan modellen och testdatat 8

15 2.2. MASKININLÄRNING Figur 2.4. Ringarna är data som samplats från den gröna kurvan med en viss störning. Den röda kurvan är en anpassning till den samplade datan, gjord med ett polynom av grad 9. De stora oscillationer som anpassningen uppvisar är en följd av polynomets höga gradtal. ökar kraftigt [1]. Därför bör alltid en avvägning göras mellan att använda en tillräckligt komplex modell som fångar beteendet men samtidigt undvika overfitting Praktisk modellframtagning För att finna den bäst anpassade modellen f används ofta Minsta Kvadratmetoden inom automatisk kurvanpassning. Denna metod går ut på att finna de koefficienter w som minimerar residualkvadratsumman: N (y n f(x n, w)) 2 (2.2) n=1 Residualkvadratsumman kallas på engelska för root-mean-square error vilket förkortas RMS-fel. Residualen är differensen mellan det givna värdet y n och det beräknade värdet f(x n, w). Genom att minimera summan av residualerna i kvadrat minimeras samtidigt avståndet mellan modellen och y vilket är detsamma som att modellen förbättras. Matematiskt kan de koefficienter som ger ett minimum av residualkvadratsumman lösas ut genom att derivera 2.2 med avseende på koefficienterna w och sätta uttrycket till noll. I efterföljande avsnitt kommer det att visa sig att Minsta Kvadrat-metoden i själva verket är en variant av Maximum Likelihood-metoden [8]. 9

16 KAPITEL 2. BAKGRUND Bayesisk sannolikhetslära Mycket av principerna för sannolikhetsbaserad maskininlärning bygger på Bayesisk sannolikhetslära. Därav följer här ett flertal begrepp som är viktiga i sammanhanget [2]. Definition: p(z) är en sannolikhetsfördelning som anger hur stor sannolikheten är att z ska anta ett visst värde. Priorisannolikhet p(y) (2.3) Priorisannolikheten anger det som är känt på förhand om vår parameter y. Det är alltså inte slutsatser som dragits med hjälp av den aktuella datamängden utan information om parametern som var tillgänglig innan datamängden undersökts. Om sannolikheten för y att anta ett visst värde alltid är lika stor kommer priorisannolikheten ges av 1/K där K är totala antalet värden. I detta fall anses priorisannolikheten vara icke-informativ då den är uniform för alla möjliga värden. Posteriorisannolikhet p(y x) (2.4) Detta kallas även betingad sannolikhet och anger sannolikheten för y givet att värdet för x är känt. I motsats till priorisannolikheten som måste baseras på det som är känt innan datat är känt, är posteriori den sannolikhet som baseras på att x redan är känd och vad detta säger om y. Antagande om oberoende p(y x) = p(y) (2.5) Om y och x är oberoende av varandra innebär detta att om värdet för x är känt så säger detta ändå inte något om hur y ser ut. Produktregel p(x, y) = p(y x) p(x) (2.6) Produktregeln talar om att en posteriorisannolikhet p(y x) kan omvandlas till en sannolikhetsfördelning p(x,y) genom multiplikation med priorisannolikheten p(x). Detta blir ett sätt att förflytta en parameter från att vara given till att icke vara given. 10

17 2.2. MASKININLÄRNING Produktregel för oberoende variabler p(x, y) = p(x) p(y) (2.7) Vid antagande om oberoende blir den totala sannolikhetsfördelningen produkten av variablernas enskilda sannolikhetsfördelningar. Bayes sats p(y) p(x y) p(y x) = (2.8) p(x) Bayes sats beskriver hur de betingade sannolikheter hänger samman med varandra. I fallet då den ena av parametrarna utgörs av modellparametrar w som skall tas fram, säg y=w. Då beskriver Bayes sats hur posteriorisannolikheten p(w x) beror av priorisannolikheten p(w) och av något som kallas likelihoodfunktionen p(x w). Likelihoodfunktionen anger hur sannolikt datasetet x är för olika konfigurationer av modellparametern w. p(x) i nämnaren finns med för att normera funktionen. Detta ger sambandet mellan posteriorisannolikhet, likelihoodfunktion och priorisannolikhet enligt nedan: posterior likelihood prior (2.9) Möjliga manipulationer i fler än två variabler Genom användning av ovanstående regler kan en sannolikhetsfördelning av fler än två variabler p(x, y, z) uttryckas på annan form. Formel 2.6 ger: p(x, y, z) = p(x, y z) p(z) (2.10) Om formel 2.6 därefter tillämpas på uttrycket p(x, y z) ger detta: p(x, y z) = p(x y, z) p(y z) (2.11) Om det antas att x och y är oberoende av varandra givet z fås p(x y, z) = p(x z) vilket ger: p(x, y z) = p(x z) p(y z) (2.12) Detta sammantaget ger att sannolikhetsfördelningen kan uttryckas som: p(x, y, z) = p(x z) p(y z) p(z) (2.13) Med antagande om oberoende kan alltså en sannolikhetsfördelning i många variabler uttryckas som en produkt av mindre posteriori- och priorisannolikheter. 11

18 KAPITEL 2. BAKGRUND Figur 2.5. Normalfördelningskurva Normalfördelningen Ett sätt att ta fram en modell som beskriver sambandet mellan två parametrar x och y är att använda Maximum Likelihood-metoden som beskrivs i nästa avsnitt. För att använda denna metod inom sannolikhetsbaserad maskininlärning måste vi börja med att göra antagandet att x och y är normalfördelade parametrar. Det innebär att de har en täthetsfunktion enligt nedan: f(z) = 1 2 π σ 2 e (z µ)2 2 σ 2 (2.14) Täthetsfunktionen anger hur sannolikheten fördelar sig för olika värden på z[2]. Faktorn framför exponentialen normerar så att hela täthetsfunktionen integrerar till ett, dvs fördelar hela sannolikhetsmassan jämnt över alla punkter i sannolikhetsrummet. Symbolen µ anger klassiskt medelvärdet - det förväntade värdet. Standardavvikelsen σ är klassiskt avvikelsen från medelvärdet och beräknas enligt nedanstående formel: σ = 1 N N (x i µ) 2. (2.15) i=1 N är i denna formel det totala antalet mätpunkter. I figur 2.1 visas en bild på normalfördelningens, dess utseende är även känt som en s k gaussklocka. Normalfördelningen har som egenskap att produkten av två normalfördelningar genererar en ny normalfördelning. 12

19 2.2. MASKININLÄRNING Maximum Likelihood-metoden Med det initiala antagandet att parametrarna x och y är normalfördelade och modelleras av sambandet f(x, w) = y kan posteriorisannolikheten p(y x) uttryckas enligt: p(y x, w, σ) = 1 2 π σ 2 e (y f(x,w))2 2 σ 2 (2.16) Vi ser här att det förväntade värdet uttrycks som modellens beräknade värde f(x, w) istället för medelvärdet µ. Med antagandet att varje värde på x och y är oberoende av de övriga värdena blir nästa steg att skapa den s k likelihood-funktionen som produkten av funktion 2.16 för alla par av värden på x och y insatta. En fördelning av sinsemellan oberoende parametrar kan ju uttryckas som produkten av parametrarnas enskilda sannolikhetsfördelningar, se ekvation 2.7 i Bayesisk sannolikhetslära för jämförelse. p(y x, w, σ) = N n=1 1 2 π σ 2 e (yn f(xn,w))2 2 σ 2 (2.17) För att bestämma koefficienterna w och på detta sätt ta fram modellen f(x, w) maximeras likelihood-funktionen med avseende på w. Detta görs enklast genom att maximera logaritmen av funktion 2.17 då det ger samma resultat men är beräkningsmässigt enklare än att maximera funktionen direkt[1] : ln p(y x, w, σ) = β N (y n f(x n, w)) 2 + N 2 n=1 2 ln β N 2 ln 2π (2.18) Det inses att för maximering av 2.18 med avseende på w är endast den första termen relevant. Att maximera denna term är detsamma som att minimera termen med ett minus framför - vilket visar sig vara samma sak som en maximering av residualkvadratsumman 2.2. Detta visar att Minsta Kvadratmetoden kan ses som en tillämpning av Maximum Likelihood-metoden [8]. Det värde på w som maximerar 2.18 är det värde w ML som väljs. Vi beräknar därefter σ som avvikelsen från vår modell f(x, w ML ) σ = 1 N N (y n f(x n, w ML )) 2 (2.19) n=1 13

20 KAPITEL 2. BAKGRUND När w och σ på detta sätt har bestämts används de i sannolikhetsfördelningen nedan för att ge sannolikheten för ett visst värde av y givet ett visst värde av x: p(y x, w, σ) = 1 2 π σ 2 e (y f(x,w))2 2 σ 2 (2.20) Maximum Likelihood-estimering Genom att i 2.20 finna det värde på x som maximerar sannolikheten för det befintliga värdet på y görs en så kallad Maximum Likelihood-estimering. Ofta innebär detta att y i själva verket består av flera observerade variabler y och målet är att finna det värde på x som med störst sannolikhet har genererat y: max p(y x) (2.21) x Det x som tas fram med estimeringen är alltså det värde som maximerar uttrycket p(y x). 14

21 Metod Det av projektet använda tillvägagångssättet för beräkning av ankomsttiden är enligt följande. 1. I ett första steg inhämtas den data som modellen baserades på, och felaktig data raderas. 2. När datan har uppstrukturerats delas den upp i experiment- och testdata enligt teorin i avsnitt Datan undersöks för att hitta samband mellan de ingående parametrarna. Detta görs genom grafiska representationer av datan med avseende på olika parametrar. Då ett samband hittats mellan x och y, anpassas kurvan f(x) = y till experimentdatan och avvikelsen från modellen, σ, tas fram (ekvation 2.19). 4. Sambanden sätts in i sannolikhetsfördelningen p(y x) i ekvation 2.20 och ger en sannolikhetsfördelning för y givet att x är observerad. 5. När de intressanta delmodellerna tagits fram enligt ovan sammanfogas dessa till en total sannolikhetsmodell enligt reglerna i avsnitt För att ihopsättningen skall vara möjlig görs antagandet att delmodellerna är villkorligt oberoende. På så sätt fås en modell med ett flertal ingående parametrar. 6. Den stora modellen testas med testdatasetet för att bedöma modellens tillförlitlighet på ny data. Om modellen beskriver beteendet hos ny data väl kommer sannolikheten för varje punkt i testdatasetet vara hög. 7. Modellen uttrycks därefter på den form som önskas för användningsområdet. I projektet har modellen uttryckts på den form som krävs för att använda Maximum likelihood-estimering, avsnitt 2.2.5, vid beräkning av ankomsttiden. Modellen testas med testdatasetet för att kontrollera tillförlitligheten för den specifika uppgiften. 15

22

23 Utförande 4.1 Databehandling Datasetet Figur 4.1. Alla flygningar till Chicago och till London, från ett antal olika flygplatser. Det är ca flygningar och 4 miljoner datapunkter. Den data som används för att ta fram sannolikhetsmodellen är hämtad från Flightradar24:s databas. För att begränsa den tillgängliga datamängden används en tydligt avgränsad mängd för projektet. På förslag av Flightradar24 består datat av 2 veckornas flygningar till Chicago och till London. Alla flygningar som valts ut har alltså London eller Chicago som destination. Datat består av 4 miljoner rader, där varje rad beskriver ett flygplans position och tidpunkt samt övrig data. Hela datasetet presenteras grafiskt i figur 4.1, där varje datapunkts position på jordytan visas. Flygningarnas punkter är centrerade runt London och Chicago eftersom datamängden består av flygningar till dessa flygplatser. 17

24 KAPITEL 4. UTFÖRANDE Figur 4.2. Alla flygningar mellan Chicago och London. Feldata har raderats enligt beskrivning avsnitt De svarta punkterna är flygningar från London till Chicago och de gula punkterna är flygningar från Chicago till London. Det är ca 100 flygplan och datapunkter i varje riktning Datats strukturering Praktiska verktyg I projektet används två olika verktyg för behandling av data. Det första är en relationsdatabas av typen MySQL där datan finns lagrad. Det andra är programspråket MATLAB där datan bearbetas och modellen tas fram. Indelning i flygvägar Vid framtagandet av sannolikhetsmodellen används endast data för flygningar mellan Chicago och London. På så sätt studeras beteendet för en specifik flygväg. Figur 4.2 visar alla positioner för flygningarna mellan London och Chicago. Det ger en bild över hur flygplanen rör sig mellan dessa flygplatser. På grund av de stora skillnaderna i beteende beroende på riktning delas flygningarna upp i två delar för att skilja på flygningar från London till Chicago och från Chicago till London. 18

25 4.1. DATABEHANDLING Objekt för varje flygning Datan sorteras upp i flygningar, vilket innebär alla mätpunkter som tillhör ett speciellt identifikationsnummer. Varje flygnings hela bana från start till landning läggs ihop till ett objekt. Hälften av flygningarna väljs därefter slumpmässigt ut till experimentdata, och hälften väljs till testdata i enlighet med avsnitt Tillagd parameter För att kunna anpassa parametrar med avseende på tiden, oberoende av vid vilken tidpunkt flygplanet startar, skapas den nya parametern tid sedan start. Parametern används istället för den av flygplanet angivna absoluta tiden, och den anger den tid som förflutit sedan flygplanet lyfte. I fortsättningen av rapporten är det denna tid som åsyftas med parametern t Radering av feldata Datapunkter raderas då de av olika anledningar förstör modellanpassningar på grund av ett gravt avvikande mönster från det resterande datat. För att förenkla parameteranpassningar görs därför en strikt utsortering av data, där all data som förstör någon av modellanpassningarna raderas. Nedan följer en beskrivning av vilka mätpunkter som raderas, tillsammans med en motivering till varför de tas bort. Halva flygvägar. Det finns ett flertal flygningar där endast delar av flygvägen är uppmätt. Detta skapar problem med parametern tid-sedan-start då den baseras på skillnaden mellan varje mätpunkt och första mätpunkten för den flygningen. Om den första uppmätta tiden är långt efter start blir parametern helt felaktig. På samma sätt fås ankomsttiden från datats sista mätpunkt, vilken blir felaktig om mätpunkten vid ankomstorten saknas. Alla de flygningar som saknar mätdata för start eller landning sorteras därmed bort. Saknade/missvisande parametervärden. Det finns ett flertal mätpunkter där hastighet och höjd är konstant noll under en längre tid, vilket beror på att flygplanets sändare har slagits på i god tid före start. Även detta leder till ett felaktigt värde på tid-sedan-start eftersom flygplanet egentligen inte har börjat flyga när första mätpunkten är uppmätt. Alla mätpunkter där hastighet eller höjd är noll raderas därför. 19

26 KAPITEL 4. UTFÖRANDE Avvikande flygvägar och mätpunkter. Det finns en flygning i datat med gravt avvikande flygväg, där flygplanet landar på en annan flygplats än övriga flygplan. Den typen av fel baseras troligtvis på ett fel i Flightradars manuella inmatning av flygplanens avreseort och ankomstort. Ett annat flygplan mellanlandar under sin flygning och har därmed även det en avvikande flygväg. Båda dessa flygningar raderas då de ger problem med framförallt modellering med avseende på position. Det finns också en punkt lång bort från de övriga som raderas då den verkar bero på ett direkt mätfel. De flesta problematiska data har upptäckts genom att rita grafer över latitud och longitud. De mätpunkter där hastighet och höjd är noll har upptäckts då grafer ritats med avseende på hastighet och höjd. 4.2 Parametersamband De samband som används tas fram genom att göra ett stort antal grafer, där parametrarna ritas ut som funktioner av varandra. Detta ger en intuitiv bild av huruvida ett tydligt samband finns, samt sambandets eventuella karaktär. Utifrån detta väljs ett antal samband ut och därefter utförs kurvanpassningar i MATLAB för respektive samband för att bestämma sambandsfunktionens koefficienter. MATLAB använder sig av Minsta Kvadrat-metoden [4] för att ta fram koefficenterna för sambandsfunktionen vilket beskrivs i bakgrunden i avsnitt 2.2.2; Praktisk modellframtagning. När en modell för varje samband tagits fram beräknas den specifika standardavvikelsen σ från modellen enligt ekvation De funktionstyper som används i kurvanpassningen för att beskriva sambanden är av låg frihetsgrad. Det minskar risken för overfitting, se figur 2.4. Därför används endast linjära och kvadratiska funktioner samt exponentialfunktioner. Den funktionstyp som ger lägst avvikelse från datan, ekvation 2.19, väljs som modell. Vid de tillfällen då två funktionstyper har ungefär lika stor standardavvikelse väljs den enklaste typen, i enlighet med Occam s razor (avsnitt 2.2.1). I ett senare skede undersöks även vilken av de olika funktionstyperna som ger bäst överensstämmelse med testdatat. Detta för att säkerställa att den modell som väljs verkligen är den som bäst beskriver det generella beteendet hos datat. I följande parametersamband används subindex -1 för att syfta till parameterns värde i föregående punkt. Givet tiden t hänvisar till exempel t 1 till tiden i föregående punkt. Nedan följer de samband som studerats. 20

27 4.2. PARAMETERSAMBAND Höjd givet Hastighet Under en flygning tillryggaläggs den stora delen av sträckan på en konstant höjd som kallas marschhöjd, och under flygplanets lyftning och landning ändras höjden från markhöjd till marschhöjd respektive tillbaka igen. På grund av detta har höjdvariationen ett generellt utseende, under en kortare första period ökas den successivt, den blir därefter konstant under den stora merparten av sträckan för att i slutskedet successivt minskas. I figur 4.3 visas höjdförändringens utseende för en exempelflygning. Det visade sig att detta beteende till stor del följs av hastigheten vilket kan upplevas som intuitivt logiskt då hastigheten är ett medel för att kunna transportera upp flygplanet till högre höjder. Vid undersökning av alla värden på höjd och hastighet och hur dessa beror av varandra kan således ett enkelt samband konstateras. Om studiet fördjupas upptäcks även att likheterna är ännu större för vissa delmängder i datat, men att ta fram en modell baserat på dessa likheter visar sig svårare. En utförligare redogörelse för detta ges under Diskussion. De ingående parametrarna i sambandet ges enligt ekvation 4.1. h = f(v) (4.1) Figur 4.3. Typiskt beteende för höjdförändringen givet tiden under en flygning. 21

28 KAPITEL 4. UTFÖRANDE Beräknad hastighet Den beräknade hastigheten v calc beräknas från sambandet för sträcka, tid och hastighet enligt ekvation 4.2. v calc = s t (4.2) Teoretiskt sett borde den givna och den beräknade hastigheten förhålla sig till varandra via en linjär kurva genom origo med lutning 1, eftersom värdena borde vara identiska. Praktiskt sett kan förhållandet inte antas vara lika perfekt, vilket dels beror på fel i datat. Det beror också på att medelhastigheten mellan två punkter endast är en approximation av den uppmätta hastigheten i den ena punkten. Ett samband har tagits fram utifrån detta, med den givna hastigheten som funktion av den beräknade hastigheten; f(v calc ) = v. Den beräknade hastigheten ges ur ekvation 4.2, där tidsskillnaden t beräknas från skillnaden mellan tiden i nuvarande punkt t och i föregående punkt t 1. Positionsförflyttningen, s, ges från ekvation 4.3. s = ( lat jordradien) 2 + ( long jordradien) 2 (4.3) Uttrycket i ekvation 4.3 baseras på att latitud och longitud är gradangivelser. Förflyttningen i latitud och longitud motsvarar därmed gradskillnader på jordklotet. Gradskillnaden long tas fram genom att beräkna differensen mellan longituden i nuvarande punkt long och i föregående punkt long 1. Samma sak gäller för gradskillnaden lat. För att ta fram den båglängd som dessa gradskillnader motsvarar multipliceras gradskillnaden med jordradien. Därefter används Pythagoras sats, där krökningen på båglängden anses så liten att de respektive sträckorna kan anses raka. På grund av att sträckorna är små i förhållande till jordradien förväntas antagandet inte leda till något betydande fel. Genom att ta fram den beräknade hastigheten som funktion av den givna hastigheten fås ett samband mellan den givna hastigheten och skillnaden i latitud, longitud och tid enligt ekvation 4.4. v = f(v calc ) = f(lat, lat 1, long, long 1, t, t 1 ) (4.4) 22

29 4.2. PARAMETERSAMBAND Statistisk position Den statistiska positionen är den mest sannolika positionen vid varje tidpunkt, endast baserad på tidigare flygningar. Latitud samt longitud uttrycks som funktion av tid, se ekvation 4.5 och 4.6. Dessa samband representerar medelvägen för flygningarna genom att ge den mest sannolika positionen för varje tidpunkt mellan start och landning. Sambandens utseende varierar något beroende på flygningens riktning, vilket avspeglas i figur 4.2. Det gör att sambandet mellan latitud och tid har ett tydligt kvadratiskt beroende för flygningar från London till Chicago, se figur För flygningar från Chicago till London är beroendet istället av linjär karaktär, se figur Sambandet mellan longitud och tid är linjärt i båda riktningar, se figur 5.1 och Beräknad position lat = f(t) (4.5) long = f(t) (4.6) En beräknad position tas fram utifrån senast givna mätpunkt. Flygplanet antas förflytta sig med samma riktning och hastighet som vid senast givna punkt, så att v v 1 och dir v 1. Flightradar24 använder sig i nuläget av denna modell för att kunna rita ut flygplansförflyttningar när mätdata saknas. Med hjälp av hastighet, riktning och tidsskillnad beräknas förflyttningen i meter, och görs därefter om till en skillnad i latitud och longitud-led. Förflyttningarna lat och long ges i detta fall av ekvationerna 4.7 och 4.8: lat = v 1 cos(dir 1 ) t jordradien long = v 1 sin(dir 1 ) t jordradien (4.7) (4.8) Dessa skillnader adderas på koordinatvärdena i den senast uppmätta punkten och ger på så sätt en approximerad ny position; long = long 1 + long samt lat = lat 1 + lat. Sambanden mellan de ingående parametrarna uttrycks i ekvation 4.9 och long = f(long 1, v 1, dir 1 ) (4.9) lat = f(lat 1, v 1, dir 1 ) (4.10) 23

30 KAPITEL 4. UTFÖRANDE 4.3 Sammansättning av sannolikhetsmodellen Först görs antagandet att alla parametrar i datat är normalfördelade, se avsnitt om Normalfördelningen under Bakgrund. Med detta antagande kan därefter sannolikhetsfördelningar skapas för de parametersamband som togs fram i föregående avsnitt, enligt Maximum Likelihood-metoden i avsnitt För ett exempelsamband f(x) = y skapas sannolikhetsfördelningen p(y x) vilket uttrycks redan i ekvation 2.16 men här betecknas i mer schematisk form: p(y x) = 1 2 π σ 2 e (y f(x))2 2 σ 2 (4.11) För alla parametersamband skapas sannolikhetsfördelningar av typen Detta utförs genom att för varje samband sätta in dess respektive standardavvikelse och funktion f given av ekvation 4.1, 4.4, 4.6, 4.5, 4.9 och De skapade sannolikhetsfördelningarna blir följande: Höjd givet Hastighet p(h v) Beräknad hastighet p(v lat, long, t, lat 1, long 1, t 1 ) Statistisk position p(lat tid) och p(long tid) Beräknad position p(lat t, lat 1, dir 1, v 1, t 1 ) och p(long t, long 1, dir 1, v 1, t 1 ) Med hjälp av sannolikhetsregler kan de olika delsannolikheterna ovan sättas ihop till en stor sannolikhetsfördelning Tillämpande av sannolikhetsregler I ett antal steg visas här hur delsannolikheterna kan multipliceras ihop till en stor sannolikhetsfördelning och vilka sannolikhetsregler som motiverar detta. Först och främst är de parametrar som står till höger om strecket betecknade som givna. Detta innebär att priorisannolikheten för dessa inte behöver tas med i uttrycket. 24

31 4.3. SAMMANSÄTTNING AV SANNOLIKHETSMODELLEN Steg ett Först sätts statistisk longitud och statistisk latitud samman till en total statistisk position enligt sannolikhetsregel 2.12: p(lat t) p(long t) = p(lat, long t) (4.12) Ovanstående gäller med antagandet att latituden och longituden är oberoende av varandra givet tiden. Steg två I steg två sätts beräknad longitud och beräknad latitud samman till en beräknad position med tillämpning av sannolikhetsregel 2.12 i flera variabler. För att underlätta notationen uttrycks (dir 1, v 1, t 1 ) som punkt 1 : p(lat t, lat 1, punkt 1 ) p(long t, long 1, punkt 1 ) = p(lat, long t, lat 1, long 1, punkt 1 ) (4.13) Ovanstående gäller med antagandet att long är oberoende av lat och lat 1 givet övriga variabler samt att lat är oberoende av long och long 1 givet övriga variabler. Steg tre Att nu sätta samman statistisk position och beräknad position till en total position leder endast till att vi får tillbaka uttrycket för beräknad position. För att underlätta notationen inkluderas även lat 1 och long 1 i punkt 1. Total position ges nu av: p(lat, long t, punkt 1 ) p(lat, long t) = p(lat, long t, punkt 1 ) (4.14) Steg fyra Nu skall total position sättas samman med den beräknade hastigheten. Enligt sannolikhetsregel 2.11 fås då uttrycket: p(v lat, long, t, punkt 1 ) p(lat, long t, punkt 1 ) = p(lat, long, v t, punkt 1 ) (4.15) 25

32 KAPITEL 4. UTFÖRANDE Steg fem Sista steget blir att lägga till Höjd givet Hastighet genom att återigen tillämpa sannolikhetsregel 2.11: p(h v) p(lat, long, v t, punkt 1 ) = p(lat, long, v, h t, punkt 1 ) (4.16) Total sannolikhetsfördelning Detta ger den totala sannolikhetsfördelningen: p(lat, long, v, h t, t 1, lat 1, long 1, dir 1, v 1 ) (4.17) Slutresultatet blir en modell som kan beskriva sannolikheten för latitud, longtud, hastighet och höjd, givet ett antal andra parametrar. De steg som har utförts motiverar att det är korrekt enligt sannolikhetsregler att sätta samman sannolikhetsfördelningen genom att multiplicera ihop delsannolikheterna. 4.4 Beräkning av ankomsttid Modellen ovan används för att beräkna ankomsttiden med hjälp av Maximum Likelihood-estimering. Det bygger på principerna i avsnitt 2.2.5, Maximum Likelihood-metoden, och framförallt ekvation Maximum Likelihood-estimering Ankomsttiden beräknas baserat på flygplanets sista givna punkt samt positionen för flygplatsen. Flygplatsen anger då den nuvarande punkten i modellen, medan flygplanets senaste mätpunkt anger den föregående punkten. För beräkning av ankomsttiden är t den parameter som skall estimeras. Alla de övriga parametrarna antas vara redan observerad data. Den framtagna sannolikhetsmodellen i ekvation 4.17 behöver därför skrivas om på formen p(givna parametrar t). För att uppnå detta multipliceras den totala sannolikhetsmodellen med priorisannolikheterna (ekvation 2.3, priori) för de övriga parametrarna på högersidan. Med användandet av produktregeln, ekvation 2.6, förflyttas därför högerledets parametrar till vänsterledet och på så sätt fås en sannolikhetsfördelning enligt ekvation p(lat, long, v, h, v 1, t 1, riktning 1, lat 1, long 1 t) (4.18) Den tid t som maximerar uttrycket i 4.18 är den tid som är mest sannolik att ha genererat det observerade datat i vänsterledet. 26

33 4.4. BERÄKNING AV ANKOMSTTID Figur 4.4. Givet bestämda värden på övriga parametrar visas här sannolikheten för olika värden på tiden. Den högsta punkten på kurvan motsvarar vår beräknade ankomsttid, markerad som svart punkt. Den röda punkten är den riktiga ankomsttiden. På detta sätt utförs en Maximum Likelihood-estimering av tiden enligt formel En graf över estimeringen visas i figur 4.4. max t p(lat, long, v, h, v 1, t 1, riktning 1, lat 1, long 1 t) (4.19) Priorisannolikheterna antas vara uniforma. Detta innebär att sannolikheten endast viktas med en konstant till följd av multiplicering med priorisannolikheterna. Eftersom det som utförs i metoden är en maximering, och en konstant inte påverkar var maximum hamnar, innebär detta att den totala sannolikhetsmodellen från ekvation 4.17 kan användas direkt Reducerad sannolikhetsmodell Efter ett flertal tester insågs att modellsambandet Höjd givet Hastighet inte påverkar resultatet för Maximum Likelihood-estimeringen. Sambandet Beräknad hastighet ger däremot i vissa fall en singularitet vilket påverkar resultatet negativt. Med bakgrund av detta används en reducerad modell för estimeringen, där endast sannolikhetsfördelningarna för Statistisk position och Beräknad position ingår. Denna reducerade modell motsvarar modellen som tas fram i steg 1-3 under avsnitt 4.3, Sammansättning av sannolikhetsmodellen. Estimering med den reducerade modellen blir enligt följande: max t p(lat, long, t 1, lat 1, long 1 t) (4.20) 27

34 KAPITEL 4. UTFÖRANDE 4.5 Testning Sannolikhetsmodellen När sannolikhetsmodellen är framtagen testas hur bra den fungerar på nytt data med hjälp av testdatasetet. I tur och ordning väljs flygningar ur setet ut, och sannolikheterna för varje mätpunkt under hela flygningen tas fram. Om sannolikheten är hög för mätpunkterna betyder det att modellen stämmer bra överens med nya flygningar. Högsta möjliga sannolikhet Den högsta möjliga sannolikheten begränsas av standardavvikelserna i modellen. Eftersom varje parametersamband består av uttrycket 4.11 uppnås det maximala värdet då exponentialfunktionen blir 1. Det maximala värdet för varje delsannolikhet, p del, begränsas därför av uttrycket framför exponentialfunktionen där den för sambandet specifika standardavvikelsen σ sätts in: max(p del ) = 1 2 π σdel 2 (4.21) Eftersom den stora sannolikhetsfördelningen består av produkten av alla delsannolikheter, uppnås det maximala värdet för denna då alla dessa exponentialfunktioner blir 1. Det som begränsar den maximala sannolikheten är då produkten av 4.21 för alla samband: max(p total ) = N n=1 1 2 π σ 2 n (4.22) Eftersom antalet delsannolikheter är 6 för den totala modellen blir detta värdet på N, och n anger i tur och ordning vilket σ som åsyftas. För modifieringar av modellen med ett mindre antal delsannolikheter byts N ut mot det korrekta antalet med motsvarande värden på σ. För att få ett bättre mått på sannolikheten under testningen så normeras denna alltid med den högsta möjliga sannolikheten i Utförd testning Den slutliga testningen går ut på att ta fram statistik över modellens prestation på testdatat. För detta tas sannolikheten för varje punkt i testdatat fram enligt modellen, och fördelningen av dessa sannolikheter representeras med ett histogram. 28

35 4.5. TESTNING Denna testning utförs för tre olika varianter på sannolikhetsmodellen. Först den totala vilket är den som åsyftats hittills. Därefter för den reducerade modell som nämns i avsnitt Detta är alltså den totala modellen fast med sambanden för Höjd givet Hastighet och Beräknad hastighet borttagna. Slutligen för den tredje varianten vilken är den totala modellen fast med sambandet för Statistisk position borttagen. Motivering till denna tredje variant ges vidare under Diskussion Beräkning av ankomsttid För att testa hur bra den reducerade och den totala modellen fungerar för att förutspå ankomsttiden har modellerna använts på testdatasetet. För varje modell har ankomsttiden beräknats med Maximum Likelihood-estimering given av uttrycken i 4.19 och Ett flertal olika punkter på testdatat har använts som flygplanets nuvarande punkt för att jämföra resultaten för olika avstånd från flygplatsen. Differensen mellan den beräknade ankomsttiden och den av testdatat givna ankomsttiden har därefter tagits fram för att möjliggöra jämförelse mellan modellerna. De båda modellerna har också jämförts mot Flightradar24:s nuvarande modell, ekvation

36

37 Resultat I detta kapitel redovisas resultaten för projektet i form av grafer, kort förklarande text och tabeller. Kapitlet inleds med resultaten för parametersambanden. Därefter visas resultaten från testningen av sannolikhetsmodellen. Slutligen presenteras resultaten för beräkningen av ankomsttid. 5.1 Parametersamband I detta avsnitt visas resultatet för parametersambanden. Avsnittet inleds med att de framräknade koefficienterna och standardavvikelserna för de specifika modellerna redovisas. Därefter visas grafer över kurvanpassningarna för respektive samband. För samtliga delar visas resultatet för flygningar i båda riktningar, London till Chicago och Chicago till London Koefficienter för parametersamband På nästa sida visas värdet på koefficienterna från kurvanpassningarna i avsnitt 4.2. Datan är skriven på formen: Om andragradspolynom y = ax 2 + bx + c Om förstagradspolynom y = ax + b. 31

38 KAPITEL 5. RESULTAT Parametersamband London - Chicago Sambandstyp Höjd givet Hastighet a = 0,036 b = 56,65 c = Kvadratiskt Beräknad hastighet a = 0,532 b = 58,83 Linjärt Statistisk latitud a = -49*10 8 b = 0,001 c = 52,03 Kvadratiskt Statistisk longitud a = -0,003 b = -1,19 Linjärt Tabell 5.1. Parametrar London - Chicago Parametersamband Chicago - London Sambandstyp Höjd givet Hastighet a = 0,07 b = 23,93 c = Kvadratiskt Beräknad hastighet a = 0,694 b = 23,98 Linjärt Statistisk latitud a = -9,47*10 9 b = 0,0006 c= 41,47 Kvadratiskt Statistisk longitud a = 0,003 b = -89,62 Linjärt Tabell 5.2. Parametrar Chicago - London Parametersamband London- Chicago Höjd givet Hastighet 1468,98 Beräknad hastighet 34,41 Statistisk latitud 2,27 Statistisk longitud 5,22 Beräknad latitud 7,78 Beräknad longitud 18,27 Tabell 5.3. Avvikelse, σ, från modellen, London - Chicago Parametersamband Chicago - London Höjd givet Hastighet 1,02*10 3 Beräknad hastighet 37,33 Statistisk latitud 1,38 Statistisk longitud 2,81 Beräknad latitud 0,76 Beräknad longitud 21,61 Tabell 5.4. Avvikelse, σ, från modellen, Chicago - London 32

39 5.1. PARAMETERSAMBAND Grafer för parametersamband Nedan presenteras graferna till kurvanpassningarna, tillsammans med den data som de anpassats till. Parametersamband, Position Figur 5.1. Statistisk latitud för de respektive riktningarna Figur 5.2. Statistisk longitud för de respektive riktningarna 33

40 KAPITEL 5. RESULTAT Parametersamband, Hastighet och höjd Figur 5.3. Beräknad hastighet för de respektive riktningarna Figur 5.4. Höjd givet hastighet för respektive riktningar 34

41 5.2. SANNOLIKHETSMODELLEN 5.2 Sannolikhetsmodellen För att testa modellen har testdatasetet använts. I figur 5.5 visas sannolikheterna för en testflygnings alla mätpunkter givet modellen. I figur 5.6 visas de separata delsannolikheternas respektive sannolikheter för samma testflygning. Därefter presenteras histogrammen över fördelningen av sannolikheter för testdatat givet tre varianter av sannolikhetsmodellen. Sannolikheten är i dessa grafer normerad utefter den högsta maximala sannolikheten för respektive modell, vilken tas fram med ekvation 4.22 som presenteras under avsnittet om Testning i Utförande. Figur 5.5. Sannolikheten för en flygnings alla punkter. 35

42 KAPITEL 5. RESULTAT Figur 5.6. Varje delmodells sannolikhet för varje punkt för en flygning. 36

43 5.2. SANNOLIKHETSMODELLEN Fördelning över sannolikheten för alla punkter i testdatat Figur 5.7. Totala modellen för båda riktningar. Figur 5.8. Reducerade modellen för båda riktningar. Figur 5.9. Modellen utan Statistisk position för båda riktningar. 37

44 KAPITEL 5. RESULTAT 5.3 Ankomsttid I resultatet för beräkningen av ankomsttid används storheterna relativt fel, ekvation 5.1, och absolut fel, ekvation 5.2. I figur 5.10 visas en graf över det relativa felet för de tre modellerna. I tabell 5.5 visas medelvärdet av det absoluta felet, för de tre modellerna vid 4 olika tidpunkter sedan start. I figur 5.11 visas histogram över det relativa felet hos den reducerade modellen för alla flygningar i testdatasetet, för fyra olika tidpunkter. Viktigt att notera är att alla resultat är framtagna för riktningen London-Chicago. absolut fel = ankomsttid given ankomsttid beräknad (5.1) relativt fel = ankomsttid given ankomsttid beräknad ankomsttid given (5.2) Figur Relativt fel mellan respektive modell och verkligheten, för riktningen London-Chicago. Varje punkt är en flygning, och för varje av de 7 flygningarna har ankomsttiden beräknats utifrån 4 olika tidpunkter. 38

45 5.3. ANKOMSTTID Absolut fel mellan de tre modellerna Tid sedan start: 1 timme 2 timmar 4,5 timmar 7,5 timmar Reducerad modell 39 min 30 min 25 min 4 min Total modell 30 min 35 min 38 min 6 min Flightradar24:s modell 3 tim 55 min 3 tim 10 min 1 timme 13 min Tabell 5.5. Absolut fel i minuter för ankomsttiden, beräknat för 4 olika tidpunkter under flygningen, riktningen London-Chicago. Detta är medelvärdet av det absoluta felet, beräknat på hela testdatasetet (48 flygningar). Figur Histogram över alla flygningars relativa fel för den reducerade modellen, beräknat vid 4 olika tidpunkter efter start. Flygningarna motsvarar testdatat för London-Chicago. 39

46

47 Diskussion I detta kapitel diskuteras projektets resultat. Det inleds med reflektion kring parametersambanden, följt av diskussion om felkällor och modellens generalitet. Sist men inte minst behandlas beräkningen av ankomsttid. 6.1 Parametersambanden Modellens precision beror till största delen på vilka parametersamband som valts, om sambanden beror på varandra på det sätt som förutspås samt hur väl anpassade sambanden är till datan. Den modell som ger den bästa precisionen på ny data är den där parametersambanden följer den nya datans beteende på mest korrekta sätt. För att uppnå detta måste modellen dels vara väl avpassad till den historiska datan med så litet fel som möjligt, samtidigt som anpassningen inte får vara för komplex, se Occam s razor och overfitting i kapitel Allmänt sett är funktionssamband mer korrekta ju större mängd data som används för kurvanpassningen. Det dataset som används i projektet är däremot relativt litet, så en större datamängd hade gjort parametersambanden mer generella. Den förbättring detta skulle innebära är dock begränsad. Ett av de antaganden som gjorts för att kunna sätta ihop sannolikhetsmodellen är att många av parametrarna är oberoende av varandra. Se avsnitt för specifiering av vilka antaganden om oberoende som görs. Det är fullt möjligt att parametrarna inte är oberoende i den utsträckning som antagits, vilket skulle ge en felaktighet i den modell som tagits fram. Detta, att parametrarna måste antas oberoende, är en välkänd svaghet med Bayesiansk sannolikhetslära. Här nedanför diskuteras varje parametersamband för sig. 41

48 KAPITEL 6. DISKUSSION Höjd givet Hastighet Vid undersökning av sambandet mellan höjd och hastighet studerades i ett första skede alla datapunkter samtidigt och ett till synes enkelt samband konstaterades, se figur 5.3 under Resultat för jämförelse. Om alla datapunkter istället delades upp i vilka flygningar de tillhörde, och dessa flygningar studerades, kunde dock likheter mellan delmängder i datat upptäckas. Dessa likheter härrörde från i vilket skede flygningen befann sig. De tre skeden som observerades var lyftning, marschhöjd och landning. Det visade sig att flygningarnas lyftning uppvisade större likheter sinsemellan än det generella sambandet, se figur 6.1. Samma sak gällde för flygningarnas landning, se figur 6.2. Under marschhöjden var både hastighet och höjd konstant. Figur 6.1. Lyftning London-Chicago Figur 6.2. Landning London-Chicago Det befanns alltså att sambandet mellan höjd och hastighet kunde modelleras med varierande grad av komplexitet. Rent praktiskt innebar det senare sambandet att datat måste undersökas med tröskelvillkor. Dessa tröskelvillkor skulle upptäcka brytpunkten mellan skedena lyftning, landning och marschhöjd. Att på detta sätt söka igenom den data som ska modelleras kräver mycket datakraft, och det visade sig även inte helt enkelt att modellera korrekta tröskelvillkor som fann dessa brytpunkter i datat. Figurerna 6.2 och 6.1 är till exempel framtagna genom tröskelvillkor som undersöker differensen mellan ett höjdvärde och dess efterföljande värde. När denna differens är noll ett visst antal värden i rad (vilket innebär att vi nått marschhöjd) så har en brytpunkt blivit funnen. Detta tröskelvillkor är dock inte helt perfekt och en del punkter från marschhöjd har tagits med i lyftning 42

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Experimentella metoder, FK3001. Datorövning: Finn ett samband

Experimentella metoder, FK3001. Datorövning: Finn ett samband Experimentella metoder, FK3001 Datorövning: Finn ett samband 1 Inledning Den här övningen går ut på att belysa hur man kan utnyttja dimensionsanalys tillsammans med mätningar för att bestämma fysikaliska

Läs mer

Lösningar till Tentamen i Beräkningsvetenskap II, 5.0 hp, Del A. 1. (a) ODE-systemet kan skrivas på formen

Lösningar till Tentamen i Beräkningsvetenskap II, 5.0 hp, Del A. 1. (a) ODE-systemet kan skrivas på formen Lösningar till Tentamen i Beräkningsvetenskap II, 5.0 hp, 2013-03-18 Del A 1. (a) ODE-systemet kan skrivas på formen z (t) = f(t, z), där z(t) = x(t) y(t) u(t) v(t), f(t, z) = u(t) v(t) kx(t)/ ( x2 (t)

Läs mer

TAIU07 Matematiska beräkningar med Matlab

TAIU07 Matematiska beräkningar med Matlab TAIU07 Matematiska beräkningar med Matlab Laboration 3. Linjär algebra Namn: Personnummer: Epost: Namn: Personnummer: Epost: Godkänd den: Sign: Retur: 1 Introduktion 2 En Komet Kometer rör sig enligt ellipsformade

Läs mer

SVÄNGNINGSTIDEN FÖR EN PENDEL

SVÄNGNINGSTIDEN FÖR EN PENDEL Institutionen för fysik 2012-05-21 Umeå universitet SVÄNGNINGSTIDEN FÖR EN PENDEL SAMMANFATTNING Ändamålet med experimentet är att undersöka den matematiska modellen för en fysikalisk pendel. Vi har mätt

Läs mer

Kurvanpassning. Kurvanpassning jfr lab. Kurvanpassning jfr lab

Kurvanpassning. Kurvanpassning jfr lab. Kurvanpassning jfr lab Kurvanpassning jfr lab Kurvanpassning Beräkningsvetenskap II Punktmängd approximerande funktion Finns olika sätt att approximera med polynom Problem med höga gradtal kan ge stora kast Kurvanpassning jfr

Läs mer

TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor

TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor Johan Thim 22 augusti 2018 1 Vanliga symboler Lite logik Implikation: P Q. Detta betyder att om P är sant så är Q sant. Utläses P medför Q

Läs mer

LAB 3. INTERPOLATION. 1 Inledning. 2 Interpolation med polynom. 3 Splineinterpolation. 1.1 Innehåll. 3.1 Problembeskrivning

LAB 3. INTERPOLATION. 1 Inledning. 2 Interpolation med polynom. 3 Splineinterpolation. 1.1 Innehåll. 3.1 Problembeskrivning TANA18/20 mars 2015 LAB 3. INTERPOLATION 1 Inledning Vi ska studera problemet att interpolera givna data med ett polynom och att interpolera med kubiska splinefunktioner, s(x), som är styckvisa polynom.

Läs mer

Interpolation Modellfunktioner som satisfierar givna punkter

Interpolation Modellfunktioner som satisfierar givna punkter Interpolation Modellfunktioner som satisfierar givna punkter Några tillämpningar Animering rörelser, t.ex. i tecknad film Bilder färger resizing Grafik Diskret representation -> kontinuerlig 2 Interpolation

Läs mer

TANA09 Föreläsning 8. Kubiska splines. B-Splines. Approximerande Splines. B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor.

TANA09 Föreläsning 8. Kubiska splines. B-Splines. Approximerande Splines. B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor. TANA09 Föreläsning 8 Kubiska splines Approximerande Splines s s s s 4 B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor. x x x x 4 x 5 Exempel Parametriska Kurvor. Ritprogram. Beziér kurvor.

Läs mer

Weibullanalys. Maximum-likelihoodskattning

Weibullanalys. Maximum-likelihoodskattning 1 Weibullanalys Jan Enger Matematisk statistik KTH Weibull-fördelningen är en mycket viktig fördelning inom tillförlitlighetsanalysen. Den används ofta för att modellera mekaniska komponenters livslängder.

Läs mer

Kapitel Ekvationsräkning

Kapitel Ekvationsräkning Kapitel Ekvationsräkning Din grafiska räknare kan lösa följande tre typer av beräkningar: Linjära ekvationer med två till sex okända variabler Högregradsekvationer (kvadratiska, tredjegrads) Lösningsräkning

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 26 november 2015 Sida 1 / 28

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 26 november 2015 Sida 1 / 28 TANA17 Matematiska beräkningar med MATLAB för M, DPU Fredrik Berntsson, Linköpings Universitet 26 november 2015 Sida 1 / 28 Föreläsning 6 Minsta kvadrat problem. Polynom. Interpolation. Rötter. Tillämpningar:

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Sidor i boken f(x) = a x 2 +b x+c

Sidor i boken f(x) = a x 2 +b x+c Sidor i boken 18-151 Andragradsfunktioner Här ska vi studera andragradsfunktionen som skrivs f(x) = ax +bx+c där a, b, c är konstanter (reella tal) och där a 0. Grafen (kurvan) till f(x), y = ax + bx +

Läs mer

Approximerande Splines. B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor.

Approximerande Splines. B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor. TANA09 Föreläsning 8 Approximerande Splines B-splines. Minsta kvadrat anpassning. Design av kurvor och ytor. Exempel Parametriska Kurvor. Ritprogram. Beziér kurvor. Design av kurvor och ytor. Tillämpning

Läs mer

Avsnitt 1, introduktion.

Avsnitt 1, introduktion. KTHs Sommarmatematik Introduktion 1:1 1:1 Kvadratkomplettering Avsnitt 1, introduktion. Det här är en viktig teknik som måste tränas in. Poängen med kvadratkomplettering är att man direkt kan se om andragradsfunktionen

Läs mer

Valfritt läromedel för kurs Matematik B Exempel: Räkna med Vux B, Gleerups förlag. Tag kontakt med examinator om du har frågor

Valfritt läromedel för kurs Matematik B Exempel: Räkna med Vux B, Gleerups förlag. Tag kontakt med examinator om du har frågor Våren 010 PRÖVNINGSANVISNINGAR Prövning i Matematik B Kurskod MA 10 Gymnasiepoäng 50 Läromedel Prov Muntligt prov Valfritt läromedel för kurs Matematik B Exempel: Räkna med Vux B, Gleerups förlag Skriftligt

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Gamla tentemensuppgifter

Gamla tentemensuppgifter Inte heller idag någon ny teori! Gamla tentemensuppgifter 1 Bestäm det andragradspolynom vars kurva skär x-axeln i x = 3 och x = 1 och y-axeln i y = 3 f(x) = (x 3)(x + 1) = x x 3 är en bra start, men vi

Läs mer

RÖRELSE. - Mätningar och mätinstrument och hur de kan kombineras för att mäta storheter, till exempel fart, tryck och effekt.

RÖRELSE. - Mätningar och mätinstrument och hur de kan kombineras för att mäta storheter, till exempel fart, tryck och effekt. RÖRELSE Inledning När vi går, springer, cyklar etc. förflyttar vi oss en viss sträcka på en viss tid. Ibland, speciellt när vi har bråttom, tänker vi på hur fort det går. I det här experimentet undersöker

Läs mer

Studieplanering till Kurs 2b Grön lärobok

Studieplanering till Kurs 2b Grön lärobok Studieplanering till Kurs 2b Grön lärobok Den här studieplaneringen hjälper dig att hänga med i kursen. Planeringen följer lärobokens uppdelning i kapitel och avsnitt. Ibland får du tips på en inspelad

Läs mer

STOCKHOLMS UNIVERSITET FYSIKUM

STOCKHOLMS UNIVERSITET FYSIKUM STOCKHOLMS UNIVERSITET FYSIKUM Tentamensskrivning i Fysikexperiment, 7,5 hp, för FK2002 Onsdagen den 15 december 2010 kl. 9-14. Skrivningen består av två delar A och B. Del A innehåller enkla frågor och

Läs mer

NpMa3c vt Kravgränser

NpMa3c vt Kravgränser Kravgränser Provet består av ett muntligt delprov (Del A) och tre skriftliga delprov (Del B, Del C och Del D). Tillsammans kan de ge 66 poäng varav 25 E-, 24 C- och 17 A-poäng. Observera att kravgränserna

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

6 Derivata och grafer

6 Derivata och grafer 6 Derivata och grafer 6.1 Dagens Teori När vi plottar funktionen f(x) = x + 1x 99x 8 med hjälp av dosan kan man få olika resultat beroende på vilka intervall man valt. 00000 100000-00 -100 100 00-100000

Läs mer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0

Läs mer

Linnéuniversitetet Institutionen för datavetenskap, fysik och matematik Per-Anders Svensson

Linnéuniversitetet Institutionen för datavetenskap, fysik och matematik Per-Anders Svensson Linnéuniversitetet Institutionen för datavetenskap, fysik och matematik Per-Anders Svensson Tentamen i Matematikens utveckling, 1MA163, 7,5hp fredagen den 28 maj 2010, klockan 8.00 11.00 Tentamen består

Läs mer

a = a a a a a a ± ± ± ±500

a = a a a a a a ± ± ± ±500 4.1 Felanalys Vill man hårddra det hela, kan man påstå att det inte finns några tal i den tillämpade matematiken, bara intervall. Man anger till exempel inte ett uppmätt värde till 134.78 meter utan att

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 4 7 november 2017 1 / 29 Idag Förra gången Viktiga kontinuerliga fördelningar (Kap. 3.6) Fördelningsfunktion (Kap. 3.7) Funktioner av stokastiska

Läs mer

Föreläsning 5. Approximationsteori

Föreläsning 5. Approximationsteori Föreläsning 5 Approximationsteori Låt f vara en kontinuerlig funktion som vi vill approximera med en enklare funktion f(x) Vi kommer använda två olika approximationsmetoder: interpolation och minstrakvadratanpassning

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

Tentamen i matematik. f(x) = ln(ln(x)),

Tentamen i matematik. f(x) = ln(ln(x)), Lösningsförslag Högskolan i Skövde (SK, JS) Tentamen i matematik Kurs: MA52G Matematisk Analys MA23G Matematisk analys för ingenjörer Tentamensdag: 203-05- kl 4.30-9.30 Hjälpmedel : Inga hjälpmedel utöver

Läs mer

GeoGebra i matematikundervisningen - Inspirationsdagar för gymnasielärare. Karlstads universitet 19-20 april

GeoGebra i matematikundervisningen - Inspirationsdagar för gymnasielärare. Karlstads universitet 19-20 april GeoGebra i matematikundervisningen - Inspirationsdagar för gymnasielärare Karlstads universitet 19-0 april Exempel på elevaktiviteter framtagna i skolutvecklingsprojektet IKT och lärande i matematik 1

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

5 Blandade problem. b(t) = t. b t ln b(t) = e

5 Blandade problem. b(t) = t. b t ln b(t) = e 5 Blandade problem 5.1 Dagens Teori Ett person sätter in 10000 kr på banken vid nyår 2000 till 4% ränta. Teckna en funktion, b(t) för beloppets utveckling. b(t) = 10000 1.04 t Skriv om funktionen med basen

Läs mer

Matematik 3c Kap 2 Förändringshastighet och derivator

Matematik 3c Kap 2 Förändringshastighet och derivator Matematik 3c Kap 2 Förändringshastighet och derivator Inledning Konkretisering av ämnesplan (länk) http://www.ioprog.se/public_html/ämnesplan_matematik/struktur_äm nesplan_matematik/struktur_ämnesplan_matematik.html

Läs mer

Föreläsningen ger en introduktion till differentialekvationer och behandlar stoff från delkapitel 18.1, 18.3 och 7.9 i Adams. 18.

Föreläsningen ger en introduktion till differentialekvationer och behandlar stoff från delkapitel 18.1, 18.3 och 7.9 i Adams. 18. Föreläsningen ger en introduktion till differentialekvationer och behandlar stoff från delkapitel 18.1, 18.3 och 7.9 i Adams. 18.1 Delkapitlet introducerar en del terminologi och beteckningar som används.

Läs mer

16. Max 2/0/ Max 3/0/0

16. Max 2/0/ Max 3/0/0 Del III 16. Max 2/0/0 Godtagbar ansats, visar förståelse för likformighetsbegreppet, t.ex. genom att bestämma en tänkbar längd på sidan med i övrigt godtagbar lösning med korrekt svar (8 cm och 18 cm)

Läs mer

SF1625 Envariabelanalys Lösningsförslag till tentamen DEL A

SF1625 Envariabelanalys Lösningsförslag till tentamen DEL A SF1625 Envariabelanalys Lösningsförslag till tentamen 215-1-27 DEL A 4 1. Betrakta funktionen f som ges av f(x) = 1 + x + (x 2). 2 A. Bestäm definitionsmängden till f. B. Bestäm alla intervall där f är

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

TANA17 Matematiska beräkningar med Matlab

TANA17 Matematiska beräkningar med Matlab TANA17 Matematiska beräkningar med Matlab Laboration 1. Linjär Algebra och Avbildningar Namn: Personnummer: Epost: Namn: Personnummer: Epost: Godkänd den: Sign: Retur: 1 Introduktion I denna övning skall

Läs mer

Linjära ekvationer med tillämpningar

Linjära ekvationer med tillämpningar UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Olof Johansson, Nina Rudälv 2006-10-17 SÄL 1-10p Linjära ekvationer med tillämpningar Avsnitt 2.1 Linjära ekvationer i en variabel

Läs mer

Kravgränser. Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng.

Kravgränser. Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng. Kravgränser Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng. Kravgräns för provbetyget E: 17 poäng D: 25 poäng varav 7 poäng på minst

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

x 2 x 1 W 24 november, 2016, Föreläsning 20 Tillämpad linjär algebra Innehåll: Projektionssatsen Minsta-kvadratmetoden

x 2 x 1 W 24 november, 2016, Föreläsning 20 Tillämpad linjär algebra Innehåll: Projektionssatsen Minsta-kvadratmetoden 24 november, 206, Föreläsning 20 Tillämpad linjär algebra Innehåll: Projektionssatsen Minsta-kvadratmetoden. Projektionssatsen - ortogonal projektion på generella underrum Om W är ett underrum till R n,

Läs mer

Dekomponering av löneskillnader

Dekomponering av löneskillnader Lönebildningsrapporten 2013 133 FÖRDJUPNING Dekomponering av löneskillnader Den här fördjupningen ger en detaljerad beskrivning av dekomponeringen av skillnader i genomsnittlig lön. Först beskrivs metoden

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE32 Sannolikhet och statistik 219-6-5 kl. 8:3-12:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

NpMa2b vt Kravgränser

NpMa2b vt Kravgränser Kravgränser Provet består av ett muntligt delprov (Del A) och tre skriftliga delprov (Del B, Del C och Del D). Tillsammans kan de ge 67 poäng varav 26 E-, 24 C- och 17 A-poäng. Observera att kravgränserna

Läs mer

Komposanter, koordinater och vektorlängd Ja, den här teorin gick vi igenom igår. Istället koncentrerar vi oss på träning inför KS3 och tentamen.

Komposanter, koordinater och vektorlängd Ja, den här teorin gick vi igenom igår. Istället koncentrerar vi oss på träning inför KS3 och tentamen. Sidor i boken 40-4 Komposanter, koordinater och vektorlängd Ja, den här teorin gick vi igenom igår. Istället koncentrerar vi oss på träning inför KS3 och tentamen. Läxa 1. En rät linje, L 1, skär y-axeln

Läs mer

Kort om mätosäkerhet

Kort om mätosäkerhet Kort om mätosäkerhet Henrik Åkerstedt 14 oktober 2014 Introduktion När man gör en mätning, oavsett hur noggrann man är, så får man inte exakt rätt värde. Alla mätningar har en viss osäkerhet. Detta kan

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

ger rötterna till ekvationen x 2 + px + q = 0.

ger rötterna till ekvationen x 2 + px + q = 0. KTHs Sommarmatematik 2002 Exempel Övningar Lösningar 1 Lösningar 2 Översikt 2.1 Introduktion Introduktion Avsnitt 2 handlar om den enklaste typen av algebraiska uttryck, polynomen. Eftersom polynom i princip

Läs mer

TATA42: Föreläsning 7 Differentialekvationer av första ordningen och integralekvationer

TATA42: Föreläsning 7 Differentialekvationer av första ordningen och integralekvationer TATA42: Föreläsning 7 Differentialekvationer av första ordningen och integralekvationer Johan Thim 0 januari 207 Introduktion En differentialekvation (DE) i en variabel är en ekvation som innehåller både

Läs mer

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs

Läs mer

Kvalificeringstävling den 30 september 2008

Kvalificeringstävling den 30 september 2008 SKOLORNAS MATEMATIKTÄVLING Svenska Matematikersamfundet Kvalificeringstävling den 30 september 2008 Förslag till lösningar Problem 1 Tre rader med tal är skrivna på ett papper Varje rad innehåller tre

Läs mer

Kan du det här? o o. o o o o. Derivera potensfunktioner, exponentialfunktioner och summor av funktioner. Använda dig av derivatan i problemlösning.

Kan du det här? o o. o o o o. Derivera potensfunktioner, exponentialfunktioner och summor av funktioner. Använda dig av derivatan i problemlösning. Kan du det här? o o o o o o Vad innebär det att x går mot noll? Vad händer då x går mot oändligheten? Vad betyder sekant, tangent och ändringskvot och vad har dessa begrepp med derivatan att göra? Derivera

Läs mer

f(x) = x 2 g(x) = x3 100 h(x) = x 4 x x 2 x 3 100

f(x) = x 2 g(x) = x3 100 h(x) = x 4 x x 2 x 3 100 8 Skissa grafer 8.1 Dagens Teori När vi nu ska lära oss att skissa kurvor är det bra att ha en känsla för vad som händer med kurvan när vi sätter in stora tal. Inledningsvis är det ju polynom vi ska studera.

Läs mer

f(x) = x 2 g(x) = x3 100

f(x) = x 2 g(x) = x3 100 När vi nu ska lära oss att skissa kurvor är det bra att ha en känsla för vad som händer med kurvan när vi sätter in stora tal. Inledningsvis är det ju polynom vi ska studera. Här ska vi se vad som händer

Läs mer

Dagens tema är exponentialfunktioner. Egentligen inga nyheter, snarare repetition. Vi vet att alla exponentialfunktioner.

Dagens tema är exponentialfunktioner. Egentligen inga nyheter, snarare repetition. Vi vet att alla exponentialfunktioner. Dagens tema är exponentialfunktioner. Egentligen inga nyheter, snarare repetition. Vi vet att alla exponentialfunktioner f(x) = C a x kan, om man så vill, skrivas om, med basen e, till Vi vet också att

Läs mer

Minsta-kvadratmetoden

Minsta-kvadratmetoden CTH/GU STUDIO b TMV036c - 01/013 Matematiska vetenskaper Minsta-kvadratmetoden Analys och Linjär Algebra, del C, K1/Kf1/Bt1 1 Inledning Ett ofta förekommande problem inom teknik och vetenskap är att koppla

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

UPPGIFTER KAPITEL 2 ÄNDRINGSKVOT OCH DERIVATA KAPITEL 3 DERIVERINGSREGLER

UPPGIFTER KAPITEL 2 ÄNDRINGSKVOT OCH DERIVATA KAPITEL 3 DERIVERINGSREGLER UPPGIFTER KAPITEL 2 ÄNDRINGSKVOT OCH DERIVATA KAPITEL 3 DERIVERINGSREGLER 1. Figuren visar grafen till funktionen f där f(x) = x 3 3x 2. I punkter där xkoordinaterna är 1 respektive 3 är tangenter till

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

Repetition kapitel 1, 2, 5 inför prov 2 Ma2 NA17 vt18

Repetition kapitel 1, 2, 5 inför prov 2 Ma2 NA17 vt18 Repetition kapitel,, 5 inför prov Ma NA7 vt8 Prov tisdag 5/6 8.00-0.00 Algebra När man adderar eller subtraherar uttryck, så räknar man ihop ensamma siffror för sig, x-termer för sig, och eventuella x

Läs mer

TATM79: Föreläsning 1 Notation, ekvationer, polynom och olikheter

TATM79: Föreläsning 1 Notation, ekvationer, polynom och olikheter TATM79: Föreläsning 1 Notation, ekvationer, polynom och olikheter Johan Thim 15 augusti 2015 1 Vanliga symboler Lite logik Implikation: P Q. Detta betyder att om P är sant så är Q sant. Utläses P medför

Läs mer

Forskningsmetodik 2006 lektion 2

Forskningsmetodik 2006 lektion 2 Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som

Läs mer

TENTAPLUGG.NU AV STUDENTER FÖR STUDENTER. Kursnamn Fysik 1. Datum LP Laboration Balkböjning. Kursexaminator. Betygsgränser.

TENTAPLUGG.NU AV STUDENTER FÖR STUDENTER. Kursnamn Fysik 1. Datum LP Laboration Balkböjning. Kursexaminator. Betygsgränser. TENTAPLUGG.NU AV STUDENTER FÖR STUDENTER Kurskod F0004T Kursnamn Fysik 1 Datum LP2 10-11 Material Laboration Balkböjning Kursexaminator Betygsgränser Tentamenspoäng Övrig kommentar Sammanfattning Denna

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på

Läs mer

1, 2, 3, 4, 5, 6,...

1, 2, 3, 4, 5, 6,... Dagens nyhet handlar om talföljder, ändliga och oändliga. Talföljden 1,, 3, 4, 5, 6,... är det första vi, som barn, lär oss om matematik över huvud taget. Så småningom lär vi oss att denna talföljd inte

Läs mer

Datorövning 1: Fördelningar

Datorövning 1: Fördelningar Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS012/MASB03: MATEMATISK STATISTIK, 9 HP, VT-17 Datorövning 1: Fördelningar I denna datorövning ska du utforska begreppen sannolikhet och

Läs mer

10. Relativitetsteori Tid och Längd

10. Relativitetsteori Tid och Längd Relativa mätningar Allting är relativt är ett välbekant begrepp. I synnerhet gäller detta när vi gör mätningar av olika slag. Många mätningar består ju i att man jämför med någonting. Temperatur är en

Läs mer

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka. Avd. Matematisk statistik TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 11 JANUARI 2016 KL 14.00 19.00. Kursledare för CINEK2: Thomas Önskog, tel: 08 790 84 55 Kursledare för

Läs mer

R AKNE OVNING VECKA 1 David Heintz, 31 oktober 2002

R AKNE OVNING VECKA 1 David Heintz, 31 oktober 2002 RÄKNEÖVNING VECKA David Heintz, 3 oktober 22 Innehåll Uppgift 27. 2 Uppgift 27.8 4 3 Uppgift 27.9 6 4 Uppgift 27. 9 5 Uppgift 28. 5 6 Uppgift 28.2 8 7 Uppgift 28.4 2 Uppgift 27. Determine primitive functions

Läs mer

f(x) = 2 x2, 1 < x < 2.

f(x) = 2 x2, 1 < x < 2. Avd. Matematisk statistik TENTAMEN I SF90,SF907,SF908,SF9 SANNOLIKHETSTEORI OCH STATISTIK TORSDAGEN DEN 7:E JUNI 0 KL 4.00 9.00. Examinator: Gunnar Englund, tel. 07 7 45 Tillåtna hjälpmedel: Formel- och

Läs mer

25 november, 2015, Föreläsning 20. Tillämpad linjär algebra

25 november, 2015, Föreläsning 20. Tillämpad linjär algebra 25 november, 205, Föreläsning 20 Tillämpad linjär algebra Innehåll: Minsta-kvadratmetoden. Minsta kvadratmetoden - motivation Inom teknik och vetenskap arbetar man ofta med modellering av data, dvs att

Läs mer

Labbrapport svängande skivor

Labbrapport svängande skivor Labbrapport svängande skivor Erik Andersson Johan Schött Olof Berglund 11th October 008 Sammanfattning Grunden för att finna matematiska samband i fysiken kan vara lite svårt att förstå och hur man kan

Läs mer

Mer om slumpvariabler

Mer om slumpvariabler 1/20 Mer om slumpvariabler Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/2 2013 2/20 Dagens föreläsning Diskreta slumpvariabler Vilket kretskort ska man välja? Väntevärde

Läs mer

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna

Läs mer

Stokastiska signaler. Mediesignaler

Stokastiska signaler. Mediesignaler Stokastiska signaler Mediesignaler Stokastiska variabler En slumpvariabel är en funktion eller en regel som tilldelar ett nummer till varje resultatet av ett experiment Symbol som representerar resultatet

Läs mer

3 Maximum Likelihoodestimering

3 Maximum Likelihoodestimering Lund Universitet med Lund Tekniska Högskola Finansiell Statistik Matematikcentrum, Matematisk Statistik VT 2006 Parameterestimation och linjär tidsserieanalys Denna laborationen ger en introduktion till

Läs mer

Vektorgeometri för gymnasister

Vektorgeometri för gymnasister Vektorgeometri för gymnasister Per-Anders Svensson http://homepage.lnu.se/staff/psvmsi/vektorgeometri/gymnasiet.html Fakulteten för teknik Linnéuniversitetet Linjära avbildningar II Innehåll Repetition:

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

BFL122/BFL111 Fysik för Tekniskt/ Naturvetenskapligt Basår/ Bastermin Föreläsning 10 Relativitetsteori den 26 april 2012.

BFL122/BFL111 Fysik för Tekniskt/ Naturvetenskapligt Basår/ Bastermin Föreläsning 10 Relativitetsteori den 26 april 2012. Föreläsning 10 Relativa mätningar Allting är relativt är ett välbekant begrepp. I synnerhet gäller detta när vi gör mätningar av olika slag. Många mätningar består ju i att man jämför med någonting. Temperatur

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

SF1669 Matematisk och numerisk analys II Bedömningskriterier till tentamen Torsdagen den 4 juni 2015

SF1669 Matematisk och numerisk analys II Bedömningskriterier till tentamen Torsdagen den 4 juni 2015 SF1669 Matematisk och numerisk analys II Bedömningskriterier till tentamen Torsdagen den 4 juni 2015 Allmänt gäller följande: För full poäng på en uppgift krävs att lösningen är väl presenterad och lätt

Läs mer

Sänkningen av parasitnivåerna i blodet

Sänkningen av parasitnivåerna i blodet 4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet

Läs mer

Kapitel 9 Egenskaper hos punktskattare

Kapitel 9 Egenskaper hos punktskattare Sannolikhetslära och inferens II Kapitel 9 Egenskaper hos punktskattare 1 Egenskaper hos punktskattare En skattare är en funktion av stickprovet och således en slumpvariabel. En bedömning av kvaliteten

Läs mer

Blandade problem från elektro- och datateknik

Blandade problem från elektro- och datateknik Blandade problem från elektro- och datateknik Sannolikhetsteori (Kapitel 1-10) E1. En viss typ av elektroniska komponenter anses ha exponentialfördelade livslängder. Efter 3000 timmar brukar 90 % av komponenterna

Läs mer

SF1626 Flervariabelanalys Bedömningskriterier till tentamen Tisdagen den 7 juni 2016

SF1626 Flervariabelanalys Bedömningskriterier till tentamen Tisdagen den 7 juni 2016 SF1626 Flervariabelanalys Bedömningskriterier till tentamen Tisdagen den 7 juni 2016 Allmänt gäller följande: För full poäng på en uppgift krävs att lösningen är väl presenterad och lätt att följa. Det

Läs mer

Arbeta med normalfördelningar

Arbeta med normalfördelningar Arbeta med normalfördelningar I en större undersökning om hur kvinnors längd gjorde man undersökning hos kvinnor i ett viss åldersintervall. Man drog sedan ett slumpmässigt urval på 2000 kvinnor och resultatet

Läs mer