GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON

Storlek: px
Starta visningen från sidan:

Download "GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON"

Transkript

1 2018 GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON

2 Innehåll Inledning & Bakgrund... 2 Förstärkt inlärning... 2 MDP... 2 Gridworld... 3 Nytta och policy... 4 Värdefunktion och Bellmanekvationer... 6 Policy-iteration... 7 Modellfri inlärning med Q-learning... 7 ε-greedy metoden... 8 Enkel applicerad Q-learning Källor

3 Inledning & Bakgrund Förstärkt inlärning Att lära sig agera på sätt som belönar tillvägagångssättet är ett tecken på intelligens. Djur kan exempelvis tränas genom att belöna ett visst beteende. Att djur kan lära sig att undvika bestraffning och söka belöningar är generellt accepterad, och den här aspekten av djurs intelligens har blivit grundligt studerat i experimentell psykologi (Watkins, 1989). Förstärkt inlärning (eng. reinforcement learning) är en av de äldre teknikerna som används inom A.I, och började användas tidigt i datavetenskapen. De senaste 20 åren har tekniken alltjämt attraherat ett ökande intresse bland både maskininlärning och A.I. Dess styrka ligger i det faktum att man inte behöver specificera hur en uppgift ska utföras, enbart belöning och/eller bestraffning samt ett korrekt modellerat problem krävs för att en RL-agent ska kunna hitta ett sätt att utföra en viss uppgift på. Förstärkt inlärning handlar således om hur en agent lär sig ett visst beteende genom trial-and-error i en dynamisk värld (Kaelbing, Littman & Moore, 1996). Belöningarna och straffen kan vara omedelbara eller framtida och ställer olika krav på agenten. Det finns två huvudsakliga strategier för att lösa RL-problem. Den första är att söka i agentens olika beteende i hopp om att hitta ett visst beteende som fungerar bra i en specifik omgivning. Denna strategi är till grund för genetiska algoritmer och genetisk programmering. Den andra strategin går ut på att använda statiska tekniker och dynamisk programmering för att försöka uppskatta nyttan (eng. utility) av utföra handlingar i världen (Kaelbling et al, 1996). Denna rapport fokuserar uteslutande på den sistnämnda strategin. MDP Markov decision process (härefter MDP) tillhandahåller ett ramverk för att modellera beslutsfattande i situationer där utgången är delvis slumpmässig och delvis under kontroll av agenten som fattar besluten. MDP är användbar när man letar efter optimering av problem inom förstärkt inlärning. För att kunna modellera ett problem så att det är hanterbart med MDP så krävs det att problemet består av en uppsättning tillstånd S, handlingar A, övergångar mellan tillstånd T samt en belöningsfunktion R. Om världen som agenten verkar i är stokastisk så kan T betecknas som en sannolikhetsfunktion P(s' s, a), där funktionen modellerar sannolikheten för att nå tillstånd s' givet att agenten utför handling a i tillstånd s. En potentiell lösning/strategi till problemet kallas i MDP för en policy, och noteras med π (Russell & Norvig, 2010). Tillstånd : S Övergångsmodell : T(s, a, s') Handlingar : A(s) Belöning : R(s) Policy : PI(s) -> a 2

4 När man använder sig av MDP så förutsätter man att sannolikheterna för att från ett tillstånd övergå till ett annat tillstånd är markovianska (eng. markovian), vilket innebär att sannolikheten att från tillstånd sₙ nå sₙ+₁ enbart beror på det nuvarande tillståndet sₙ och handlingen som utförs i det tillståndet (Tambet, 2015). Gridworld I bilden nedan presenteras en värld bestående av 4X3 rutor. Världen är frekvent förekommande i samband med MDP-lära, och kallas inofficiellt Gridworld. I Gridworld presenteras varje möjligt tillstånd som en ruta. Ruta (2,2) är inte tillgängligt, men alla övriga rutor kan nås av agenten. Ruta (4,2) ger ett negativt resultat och ska undvikas av agenten, medan tillstånd (4,3) ger ett positivt resultat, och målet med förstärkt inlärning är att få agenten att lära sig att navigera sig till den rutan. Både den negativa och den positiva rutan är avslutande tillstånd (eng. terminal) vilket innebär att agenten börjar om eller avslutar sin sökning när den når någon av de rutorna. För att få agenten att söka sig till något av de avslutande tillstånden så kan associera en rörelsekostnad med varje tillståndsförflyttning. Detta innebär rent praktiskt att man låter belöningsfunktionen R(s) vara ett negativt tal för varje tillstånd som inte är ett avslutande tillstånd. Genom att göra det obehagligt för agenten att bara utforska så tvingas den att söka sig mot de avslutande tillstånden. Om världen som agenten befinner sig i är deterministisk så räcker det med en belöningsfunktion likt ovanstående för att identifiera en optimal förflyttning mellan tillstånd för att nå det avslutande tillståndet. Om allt som påverkar agenten är en rörelsekostnad så kommer båda riktningar agenten kan 3

5 ta från starttillsståndet i exemplet ovan klassificeras som optimala sekvenser till det avslutande tillståndet. Om förändringarna i världen inte bara beror på agenten och tidigare tillstånd så innebär det att världen är stokastisk. I en stokastisk värld sätts andra krav på agenten. I Gridworld är det lika långt från startrutan (1,1) till det positiva, avslutande tillståndet (4,3) oavsett om agenten väljer att gå till höger eller rakt upp. Om världen är deterministisk så kan båda hållen anses vara optimala, det vill säga, agenten kommer få lika hög belöning oavsett vilket håll den går. I en stokastisk värld, där tillståndsförflyttningarna för agenten bara delvis beror på agenten själv, är inte båda sekvenser lika mycket värda. Om agenten slumpmässigt tar ett steg till höger eller vänster när den vill gå framåt, kan den mycket väl hamna i tillstånd som den inte önskar. Exempelvis kan en agent som går till höger från start-tillståndet mycket väl av ren slump hamna i den negativa avslutande rutan. En agent som går rakt upp från starttillståndet kan även den hamna i ett icke-önskvärt tillstånd, men med mindre sannolikhet. Detta innebär att de båda sekvenserna som tidigare kunde likställas ej längre kan ses som jämlika. Risken för att hamna i det negativa avslutande tillståndet tillsammans med rörelsekostnaden bestämmer således vilken policy som är optimal. Nedan presenteras några exempel från Russell och Norvig (2010) på hur den optimala policyn förändras beroende på rörelsekostnaden R. Nytta och policy Nyttan för olika sekvenser av tillstånd beräknas i dess enklaste form som den sammanslagna möjliga belöningen av en sekvens av tillståndsförändringar: Uₕ([s₀, s₁, s₂,...]) = R(s₀) + R(s₁) + R(s₂) +. 4

6 Ovanstående formel uttrycker att nyttan, U, för att röra sig från s₀ till s₂ är lika med summan av belöningar som agenten ackumulerar genom att besöka samma tillstånd under den sekvensen. Detta kallas för additiva belöningar (eng. additive rewards) och innebär att framtida belöningar är värda lika mycket som omedelbara belöningar. Att jämställa framtida belöningar med omedelbara är modellerar dessvärre inte verkligheten bra, där framtiden är mer oviss. Man kan därför introducera en rabatteringsfaktor (eng. discount factor), γ, som introducerar en möjlighet att minska värdet hos framtida belöningar. Att rabattera framtida belöningar framstår som en bra modell över både djur och människors preferenser över tid (Russell & Norvig, 2010). Rabattfaktorn γ består av ett tal mellan 0 och 1, där 0 innebär att agenten enbart bryr som om omedelbara belöningar, och 1 motsvarar ovanstående additiva belöningar. Formeln för nyttan av rabatterade belöningar ser ut som följande: Uₕ([s₀, s₁, s₂,...]) = R(s₀) + γr(s₁) + γ R(s₂) +. När man tar hänsyn till en rabatteringsfaktor så blir agentens beslutsfattande enklare, då tillstånd långt in i framtiden inte ger lika mycket belöning och inte behöver tas lika mycket hänsyn till. Agenten tvingas att börja välja mellan omedelbara belöningar och framtida, mindre värda belöningar som kanske tillsammans utgör en större total belöning inom en överskådlig framtid. Belöningar långt in i framtiden blir på så sätt väldigt låga, och tvingar agenten till att fatta relativt kortsiktiga beslut. Rabattfaktorn motverkar således att belöningen (och beräkningen) går mot evigheten (Alzantot, 2017) För att kunna värdera en policy för en agent måste man först beräkna hur bra det är att befinna sig i de olika tillstånden. Detta benämns som nyttan (eng. utility) för olika tillstånd och betecknas med U(s). För att kunna räkna ut nyttan givet en viss sekvens av tillståndsförändringar kan följande formel användas; I ovanstående formel betecknar π den rådande policyn, s starttillståndet och E den förväntade nyttan av sekvensen baserad på sannolikheten att agenten hamnar där (Russell & Norvig, 2010). I Gridworld exemplet är världen som agenten befinner sig i relativt enkel. Detta innebär att en möjlig strategi för att hitta en optimal policy är att från start-tillståndet slumpmässigt testa alla möjliga kombinationer av policies och sedan beräkna nyttan av de sekvenserna. Den optimala värdefunktionen är den som resulterar i högst belöning för agenten och betecknas som U*. Att kunna identifiera den optimala värdefunktionen är kritisk för att kunna identifiera den optimala policyn. 5

7 Värdefunktion och Bellmanekvationer Harmon och Harmon (1996) presenterar ett exempel för hur man hittar den optimala värde funktionen. Detta kan göras genom att U(s) initaliseras med slumpmässiga värden och innehåller således ingen information om den optimala värdefunktionen U*(s). Detta innebär att uppskattningen av den optimala värde-funktionen i ett givet tillstånd är lika med det riktiga värden av det tillståndet, plus en felmarginal e: U(sₜ) = e(sₜ) + U*(sₜ) I ovanstående formel använder Harmon och Harmon (1996) e(sₜ) som beteckning för det potentiella felet i värderingen av ett tillstånd vid tidpunkten t. Detta innebär att formeln ovan visar värdet på tillståndet agenten befinner sig i. På samma sätt kan värdet på nästkommande, framtida tillstånd beräknas med U(sₜ+₁) = e(sₜ+₁) + U*(sₜ+₁) Nyttan för tillstånd sₜ i en policy är summan av belöningar som samlats från att agenten startar i sₜ och utför handlingar a tills dess att agenten når ett avslutande tillstånd. Genom att definera nyttan så här uppstår ett enkelt men viktigt förhållande mellan efterföljande tillstånd, sₜ och sₜ+₁. Detta förhållande defineras med hjälp av Bellman-ekvationen : U*(sₜ) = r(sₜ, aₜ) + (γu*(sₜ+₁) + γ U*(sₜ+₂) + γ U*(sₜ+₃) + γ⁴u*(sₜ+₄) + ) Bellman-ekvationen beräknar nyttan för tillstånd sₜ genom att likställa nyttan med belöningen agenten fick för att utföra handling a i tillstånd s plus den rabatterade belöningen agenten fick av att utföra aₜ+₁ i tillstånd sₜ+₁ i framtiden. Detta innebär att för att kunna räkna ut nyttan av ett tillstånd måste funktionen rekursivt anropa sig själv. För att kunna använda sig av formeln ovan ställs krav. En policy måste finnas för att ge agenten en potentiell sekvens av tillståndsförflyttningar. Det medför i sin tur att omgivningen måste vara observerbar av agenten. Om en policy finns, och policyn vid något tillfälle terminerar så kallas policyn för en proper policy (Russel & Norvig, 2010). För att beräkna nyttan enligt formeln ovan så börjar man med att räkna från slutet av sekvensen (det avslutande tillståndet), och därefter räkna baklänges i policyns riktning. Beräkningen itereras flera gånger tills dess att funktionen konvergerar, det vill säga, till dess att förändring av talen uteblir. Därför kallas Bellmanfunktionen ibland även för value iteration. 6

8 I figur ovan visas exempel på hur nyttan U för en agent kan se ut, tagen från Russel och Norvig (2010). I figuren har nyttan beräknats med belöningen R = samt rabatteringsfaktorn γ = 1. Formeln U*(sₜ) = r(sₜ, aₜ) + γu*(sₜ+₁) + har använts tills dess att funktionen konvergerat. Notera att om man från startpositionen bara rör sig mellan tillstånden som har högst värde så får man också policyn. Med hjälp av dynamisk programmering kan man med hjälp av formler för att räkna ut U* också räkna ut en optimal policy, π* och på så vis lösa ett MDP-problem. Detta förutsätter att belöningen för en handling R(a) och sannolikheten för att nå ett tillstånd P(s' s, a) är känt av agenten. Policy-iteration Kaelbling, Littman och Moore (1996) presenterar ett annat sätt att optimera ett MDP-problem, nämeligen policy iteration. En policy iteration innebär att man direkt manipulerar agentens policy istället för att beräkna de olika tillståndens värde och därigenom hittar en policy. En värdefunktion för en policy kan defineras som den förväntade rabatterade belöningen som kommer att erhållas vid varje tillstånd om agenten följer policyn, vilket kan beräknas genom linjära ekvationer. Om man kan beräkna värdet för varje tillstånd under rådande policy, så kan man börja med policy iterering genom att ändra den första handlingen som agenten utför. Om den nya första handlingen ger ett högre värde, så ändrar man policyn till att alltid låta agenten utföra den handlingen i det tillståndet. Jämför man value iteration med policy iteration så är value iteration i praktiken mycket snabbare, men policy iteration kräver färre itereringar. Modellfri inlärning med Q-learning Om agenten inte har tillgång till hur omgivningen ser ut eller beter sig så kan inte nyttan av tillstånd eller policy beräknas enligt ovan. Istället krävs det modellfria metoder. En sådan metod är Q-learning. Q-learning bygger på temporal difference (härefter TD), som är en modellfri metod där agenten lär sig av erfarenheter av sina handlingar, a. Att man inte behöver en modell över omgivningen gör att TDmetoder kan appliceras på mer problem än traditionella metoter. Q-learning bygger på TD-metoder och kan ses som ett genombrott i förstärkt inlärning.q-learning ger agenten möjligheten att lära sig att 7

9 agera optimalt i MDP-miljöer genom att uppleva konsekvenserna av sina handlingar utan att kräva att de skapar en karta av omgivningen (Watkins, 1992). Kravet för att använda Q-learning på ett MDPproblem är att det är ändligt. Beteckningen för Q-learning funktionen är Q(s, a), där s är nuvarande tillstånd och a är utförd handling. I Q-learning så kan agentens upplevelse ses som bestående av episoder. Watkins (1992) ger en kortförklaring att i episoden n så observerar agenten sitt nuvarande tillstånd s och utför handling a. Därefter observerar agenten nästkommande tillstånd, sₙ+₁ och får en omedelbar belöning rₙ och justerar sitt gamla Q-värde med hjälp av en inlärningsfaktor, α. Russell och Norvig (2010) presenterar följande formel för modellfri Q-learning: Q(s, a) Q(s, a) + α(r(s) + γ maxq(s+₁, a+₁) - Q(s, a)) Ovan presenterades inlärningsfaktorn, α. Ett högre inlärningsvärde innebär att agenten lägger större vikt på ny information och lättare skriver över gammal, medans ett lägre värde innebär att agenten lär sig långsammare. (Russell & Norvig, 2010). Även max-funktionen introduceras, vilket innebär att formeln ska beräknas med avseende på det högsta Q-värdet. Det innebär att Q-learning metoden är girig och alltid väljer att gå till det tillstånd med högst Q-värde, givet att ingen annan parameter säger något annat. Den omvända pilen i formeln ovan kan läsas som att högerledet skriver över vänsterledet, som en backup. Detta då varje gång funktionen körs så använder den information från alla möjliga efterkommande tillstånd. Den här typen av backupfunktion är kritisk för modellfria metoder inom förstärkt inlärning (Kaelbling, Littman & Moore, 1996). ε-greedy metoden Med en modell-fri agent uppstår vissa problem, nämeligen om agenten ska utforska eller utnyttja. Genom att alltid välja handlingen med högst förväntat värde så betyder det att agenten utnyttjar sin nuvarande kunskap. Om agenten istället bestämmer sig för att utföra en annan handling så innebär det att agenten utforskar i syfte av att förbättra det uppskattade värdet på närliggande tillstånd. Genom att välja att utnyttja istället för att utforska så maximerar agenten belöningen kortsiktigt, men garanterar inte maximal belöning i det långa loppet, för om agenten istället väljer att utforska andra handlingar, har den möjlighet att utnyttja dessa senare för högre framtida belöning (Altuntaş, Imal, Emanet, & Öztürk, 2016). 8

10 Altuntaş et al (2016) nämner ε-greedy metoden som den vanligaste metoden för att balansera utforskande och utnyttjande. Med ε-greedy metoden så kallas den handling med högst förväntad belöning för den giriga handlingen (eng. greedy), och agenten utför oftast den giriga handlingen. Men det finns också en viss sannolikhet ε att agenten skippar att utföra den giriga handlingen och istället väljer att slumpmässigt utforska något av de andra möjliga tillstånden agenten kan nå, i hopp om att finna ännu bättre vägar att gå och på så sätt formulera en optimal policy. ε-greedy metoden kan enkelt implementeras genom att låta ε vara ett slumpmässigt tal, och när talet hamnar i ett visst omfång så utför agenten inte sin planerade Q-learning handling utan gör istället en slumpmässig handling. Uppdraget för en Q-learning agent är alltså att genom att utforska omgivningen hitta en optimal policy som maximerar belöningen. 9

11 Enkel applicerad Q-learning Berkeley University erbjuder en Q-learning applikation i utbildningssyfte. Nedan följer en rad skärmbilder från applikationen samt tillhörande förklaring. Agenten som initieras i ruta (1,1) kommer till en början slumpvis röra sig i omgivningen. Rörelsekostnaden R sätts till i för att efterlikna förklaringar ovan. Applikationen kommer att köras med additiva belöningar, γ = 1. Inlärningsfaktorn α kommer att vara 0.5. Slutligen kommer världen vara stokastisk, vilket innebär att agenten bara med 80% säkerhet når sitt önskade mål. Agenten kommer inte använda sig av ε-greedy metoder. Initialt startar Gridworld med helt okända värden för samtliga tillstånd. Agenten som agerar i världen representeras av den blåa cirkeln i vänster hörn. I applikationen kan agenten gå i fyra olika riktningar. Om agenten går in i en vägg flyttar agenten inte sig, men en negativ belöning associeras med att uföra den handlingen i det tillståndet 10

12 I figuren ovan har agenten börjat utforska världen. Röda trianglar visar vilka tillstånd agenten har besökt, och vilken riktning (handling) agenten tog mellan olika tillstånd. För varje tillstånd som besökts har agenten nu uppdaterat nyttan av att utföra en viss handling i ett visst tillstånd, här noterat med Värdet kommer från belöningen R = * α. Till en början är det en dålig upplevelse för agenten att utforska världen oavsett vart den går. I figuren ovan har agenten fortsatt utforska världen, och nått till det negativa avslutande tillståndet (4,2) två gånger. På så vis har den negativa belöningen associerad med det tillståndet börjat att propageras utåt. Att gå åt höger från (3,2) har nu ett negativt värde på -0.36, vilket innebär att agenten kommer undvika att utföra den handlingen i det tillståndet. 11

13 Notera även att anledningen till applikationen nu är mindre röd än tidigare figur är för att färgningen är relativ. De tidigare färgstarka negativa nyttovärdena på är svaga i jämförelse med det större negativa nyttovärdet på som har upptäckts. I figuren ovan har agenten fortsatt att utforska Gridworld. Agenten har nått båda avslutande tillstånd flera gånger, och kan med stor sannolikhet säga att en belöning på 1 respektive -1 erhålls om man når dem. På samma sätt kan agenten säga att utföra handlingen att gå höger i ruta (3,3) har relativt högt nytto-värde. Q-learning enligt ovan innebär att agenten kommer att utforska i omgivningen genom att hela tiden välja det tillstånd som har högst nyttovärde. Till en början är värdena som nämnts tidigare i rapporten inte särskilt sannolika, utan det krävs flera itereringar innan det sanna värdet för att utföra en viss handling i ett visst tillstånd dyker upp. 12

14 I figuren ovan har agenten hittat en väg den kommer att följa. Den sekvens med högst nytta är att gå till höger direkt från startposition och direkt till det positiva avslutande tillståndet. Detta innebär att gå förbi det negativa avslutande tillståndet med risk att hamna där istället, något agenten vid den här tidpunkten inte överväger. Hade världen varit deterministisk hade den policy som agenten hittat kunnat klassas som optimal Efter tillräckligt många episoder har agenten börjat associera den nedre vägen med risken att hamna i det negativa avslutande tillståndet, och agenten har istället börjat använda sig av den riskfria vägen av att gå uppåt från starttillståndet. Vägen som agenten följer genom att följa nyttovärdet för de olika tillstånden är identisk med den policy som Russel och Norvig (2010) presenterade som en optimal 13

15 policy för en agent i Gridworld med samma initiala värden. Detta kan ses som ett bevis för att Q- learning fungerar. 14

16 Källor Altuntaş, N., Imal, E., Emanet, N., & Öztürk, C. N. (2016). Reinforcement learning-based mobile robot navigation. Turkish Journal of Electrical Engineering & Computer Sciences, 24(3), Alzantot, M. (2017) Deep Reinforcement Learning Demystified - Policy Iteration, Value iteration and Q-learning policy-iteration-value-iteration-and-q-978f9e89ddaa [Hämtad ] Harmon, M. E., & Harmon, S. S. (1996). Reinforcement learning: A tutorial. WL/AAFC, WPAFB Ohio, Kaelbling, L. P., Littman, M. L., Moore, A. W. (1996). Reinforcement learning: A survey. Journal of artificial intelligence research, 4, Russell, S., Norvig, P. (2010). Artificial Intelligence: A Modern Approach (3rd ed.). Pearson Education, Inc. Tambet, M. (2015). Guest Post ( Part I ): Demystifying Deep Reinforcement Learning. [Hämtad ] 15

Förstärkande inlärning med fokus på Q-learning

Förstärkande inlärning med fokus på Q-learning LINKÖPINGS UNIVERSITET 12 januari 2017 Förstärkande inlärning med fokus på Q-learning Artificiell Intelligens, 729G43 Sammanfattning Förstärkande inlärning innebär att vi människor lär oss genom att interagera

Läs mer

med hjälp av Deep Reinforcement Learning

med hjälp av Deep Reinforcement Learning Agent som kan spela Atarispel bättre än människor med hjälp av Deep Reinforcement Learning Sofie Adolfsson, sofad117@student.liu.se Artificiell Intelligens Linköpings Universitet 2017-01-12 SofieAdolfsson

Läs mer

Lärande genom interaktion

Lärande genom interaktion Lärande genom interaktion Förstärk inlärning, specifikt Q-learning Ebba Algvere 729G43 Artificiell Intelligens Linköpings Universitet 2017 Abstract This report will provide the reader with an understanding

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Belöningsbaserad inlärning. Reinforcement Learning. Inlärningssituationen Belöningens roll Förenklande antaganden Centrala begrepp

Belöningsbaserad inlärning. Reinforcement Learning. Inlärningssituationen Belöningens roll Förenklande antaganden Centrala begrepp Belöningsbserd Inlärning Reinforcement Lerning 1 2 3 4 1 2 3 4 Belöningsbserd inlärning Reinforcement Lerning Inlärning v ett beteende utn tillgång till fcit. En belöning ger informtion om hur br det går

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Självlärande Hare and Hounds spelare med Q-learning

Självlärande Hare and Hounds spelare med Q-learning Självlärande Hare and Hounds spelare med Q-learning Examensarbete inom datalogi - DD143X HARALD HARTWIG RINDÖGATAN 27, 11558 STOCKHOLM TEL.NR: 0737264340 MAX WESTERMARK

Läs mer

Pathfinding med reinforcement learning i delvis observerbara miljöer

Pathfinding med reinforcement learning i delvis observerbara miljöer Pathfinding med reinforcement learning i delvis observerbara miljöer Anne Engström Joel Lidin Gustav Molander Olle Månsson Noa Onoszko Hugo Ölund Institutionen för Matematiska vetenskaper CHALMERS TEKNISKA

Läs mer

Självlärande brädspelare. EMRE BERGE ERGENEKON och ANTON JONSSON

Självlärande brädspelare. EMRE BERGE ERGENEKON och ANTON JONSSON Självlärande brädspelare EMRE BERGE ERGENEKON och ANTON JONSSON Examensarbete Stockholm, Sverige 2010 Självlärande brädspelare EMRE BERGE ERGENEKON och ANTON JONSSON Examensarbete i datalogi om 15 högskolepoäng

Läs mer

Självlärande Hare and Hounds-spelare med Q-learning. HARALD HARTWIG och MAX WESTERMARK

Självlärande Hare and Hounds-spelare med Q-learning. HARALD HARTWIG och MAX WESTERMARK Självlärande Hare and Hounds-spelare med Q-learning HARALD HARTWIG och MAX WESTERMARK Examensarbete Stockholm, Sverige 2011 Självlärande Hare and Hounds-spelare med Q-learning HARALD HARTWIG och MAX WESTERMARK

Läs mer

Lektion 8: Konstruktion av semantiska tablåer för PTL-formler

Lektion 8: Konstruktion av semantiska tablåer för PTL-formler Lektion 8: Konstruktion av semantiska tablåer för PTL-formler Till denna lektion hör uppgift 2, 6 och 0 i lärobokens avsnitt.6 (sid. 255). Lös uppgift 2 genom att konstruera en semantisk tablå. Följande

Läs mer

Facit Tentamen i Beräkningsvetenskap I (1TD393) STS ES W K1

Facit Tentamen i Beräkningsvetenskap I (1TD393) STS ES W K1 Facit Tentamen i Beräkningsvetenskap I (1TD393) STS ES W K1 Del A Utför överskådlig beräkning, och presentera svar på följande frågor. Det bifogade svarsarket måste användas, så lös först uppgifterna på

Läs mer

Reinforcement Learning med Q-learning LUDWIG HALVORSEN PROJEKT 729G43

Reinforcement Learning med Q-learning LUDWIG HALVORSEN PROJEKT 729G43 Reinforcement Learning med Q-learning LUDWIG HALVORSEN PROJEKT 729G43 0 Innehåll 1. Introduktion... 2 2.Teori och begrepp... 3 2.1 Kort historia lektion om varför ANN helt plötsligt blev stort... 3 2.2

Läs mer

Tentamenskod: Inga hjälpmedel är tillåtna

Tentamenskod: Inga hjälpmedel är tillåtna Intelligenta och lärande system 15 högskolepoäng Provmoment: Ladokkod: Tentamen ges för: Tentamen (TEN1) Artificiell intelligens (AI) 5hp 21IS1C Systemarkitekturutbildningen Tentamenskod: Tentamensdatum:

Läs mer

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4 Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 014-015 Denna lektion ska vi studera rekursion. Lektion 4 Principen om induktion Principen om induktion är ett vanligt sätt att bevisa

Läs mer

Föreläsning 9: NP-fullständighet

Föreläsning 9: NP-fullständighet Föreläsning 9: NP-fullständighet Olika typer av problem: 1. Beslutsproblem: A(x) =Ja. 2. Optimeringsproblem: A(x) =m Vanligen max/min. 3. Konstruktionsproblem: A(x) =En struktur. Vanligen lösningen till

Läs mer

Linjära ekvationer med tillämpningar

Linjära ekvationer med tillämpningar UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Olof Johansson, Nina Rudälv 2006-10-17 SÄL 1-10p Linjära ekvationer med tillämpningar Avsnitt 2.1 Linjära ekvationer i en variabel

Läs mer

Dynamisk programmering. Dynamisk programmering. Dynamisk programmering. Dynamisk programmering

Dynamisk programmering. Dynamisk programmering. Dynamisk programmering. Dynamisk programmering Betrakta ett lagerhållningsproblem i flera tidsperioder. Vi har tillverkning och försäljning av produkter i varje tidsperiod. Dessutom kan vi lagra produkter mellan tidsperioder, för att utnyttja stordriftsfördelar

Läs mer

Kvalificeringstävling den 29 september 2009

Kvalificeringstävling den 29 september 2009 SKOLORNAS MATEMATIKTÄVLING Svenska Matematikersamfundet Kvalificeringstävling den 29 september 2009 Förslag till lösningar Problem Visa att talet 2009 kan skrivas som summan av 7 positiva heltal som endast

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Fyra-i-rad med förstärkt inlärning

Fyra-i-rad med förstärkt inlärning Fyra-i-rad med förstärkt inlärning En implementation av Q-learning CHRISTOFFER JANSON och CARL LANDEFJORD Examensarbete Stockholm, Sverige 2011 Fyra-i-rad med förstärkt inlärning En implementation av Q-learning

Läs mer

Tänk på följande saker när du skriver tentan:

Tänk på följande saker när du skriver tentan: Ämne: AI med inriktning mot kognition och design Kurskod: KOGB05 / TDBB21 Datum: 2005-04-01 Antal uppgifter: 12 Skrivtid: 09:00 15:00 Max poäng: 54 Betygsgränser: 27 x

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Föreläsning 11. Giriga algoritmer

Föreläsning 11. Giriga algoritmer Föreläsning 11 Giriga algoritmer Föreläsning 11 Giriga algoritmer Användning Växelproblemet Kappsäcksproblemet Schemaläggning Färgläggning Handelsresandeproblemet Uppgifter Giriga algoritmer (Greedy algorithms)

Läs mer

Vinjetter TDDC91 Datastrukturer och algoritmer

Vinjetter TDDC91 Datastrukturer och algoritmer Vinjetter TDDC91 Datastrukturer och algoritmer 17 augusti 2015 2 Scenario 1 Man har inom Posten Logistik AB skrivit programvara för sortering av kundinformation och vill standardisera användningen av sorteringsalgoritmer.

Läs mer

Personifierad Netflix

Personifierad Netflix Linköpings universitet Personifierad Netflix Lisa Rönnqvist 2016-08-24 Sammanfattning INNEHÅLLSFÖRTECKNING 1. Inledning... 1 1.1 Bakgrund... 1 1.2 Syfte... 2 2. Netflix... Fel! Bokmärket är inte definierat.

Läs mer

Tentamen i Beräkningsvetenskap I/KF, 5.0 hp,

Tentamen i Beräkningsvetenskap I/KF, 5.0 hp, Uppsala universitet Institutionen för informationsteknologi Teknisk databehandling Tentamen i Beräkningsvetenskap I/KF, 5. hp, 215-3-17 Skrivtid: 14 17 (OBS! Tre timmars skrivtid!) Hjälpmedel: Bifogat

Läs mer

Föreläsning 5: Dynamisk programmering

Föreläsning 5: Dynamisk programmering Föreläsning 5: Dynamisk programmering Vi betraktar en typ av problem vi tidigare sett: Indata: En uppsättning intervall [s i,f i ] med vikt w i. Mål: Att hitta en uppsättning icke överlappande intervall

Läs mer

Lösningsanvisningar till de icke obligatoriska workoutuppgifterna

Lösningsanvisningar till de icke obligatoriska workoutuppgifterna Lösningsanvisningar till de icke obligatoriska workoutuppgifterna Linjära system 7. (a) Falskt. Kondition är en egenskap hos problemet oberoende av precisionen i beräkningarna. (b) Falskt. Pivotering påverkar

Läs mer

Cake-cutting. att fördela resurser på ett rättvist sätt. Ebba Lindström

Cake-cutting. att fördela resurser på ett rättvist sätt. Ebba Lindström Cake-cutting att fördela resurser på ett rättvist sätt Ebba Lindström Innehållsförteckning Inledning 3 Utility Theory 3 Orderability 4 Transitivity 4 Continuity 4 Monotonicity 5 Decomposability 5 Cake-cutting

Läs mer

Laboration 2. Artificiell Intelligens, Ht 2004 2004-10-19 Lärare: Christina Olsén Handledare: Therese Edvall Daniel Ölvebrink

Laboration 2. Artificiell Intelligens, Ht 2004 2004-10-19 Lärare: Christina Olsén Handledare: Therese Edvall Daniel Ölvebrink Artificiell Intelligens, Ht 2004 2004-10-19 Lärare: Christina Olsén Handledare: Therese Edvall Daniel Ölvebrink Laboration 2 Laboranter: Johan Bystedt (dit02lbt) Alexander Pettersson (dit02apn) Stefan

Läs mer

LMA201/LMA521: Faktorförsök

LMA201/LMA521: Faktorförsök Föreläsning 1 Innehåll Försöksplanering Faktorförsök med två nivåer Skattning av eekterna. Diagram för huvudeekter Diagram för samspelseekter Paretodiagram Den här veckan kommer tillägnas faktorförsök.

Läs mer

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1 Kaitel 1 Mer Markovkedjor Med att secificera en Markovkedja menar vi att man bestämmer övergångsmatrisen P. Detta säger ju allt om dynamiken för rocessen. Om vi dessutom vet hur kedjan startar, dvs startfördelningen

Läs mer

Utvärdering av maskinlärningstekniker för styrning av individer i stridande förband i datorspel O L O F B J Ö R K

Utvärdering av maskinlärningstekniker för styrning av individer i stridande förband i datorspel O L O F B J Ö R K Utvärdering av maskinlärningstekniker för styrning av individer i stridande förband i datorspel O L O F B J Ö R K Examensarbete Stockholm, Sverige 2007 Utvärdering av maskinlärningstekniker för styrning

Läs mer

MMA127 Differential och integralkalkyl II

MMA127 Differential och integralkalkyl II Mälardalens högskola Akademin för utbildning, kultur och kommunikation MMA17 Differential och integralkalkyl II Tentamen Lösningsförslag 9..19 8. 11. Hjälpmedel: Endast skrivmaterial (gradskiva tillåten).

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Exempel ode45 parametrar Miniprojekt 1 Rapport. Problemlösning. Anastasia Kruchinina. Uppsala Universitet. Januari 2016

Exempel ode45 parametrar Miniprojekt 1 Rapport. Problemlösning. Anastasia Kruchinina. Uppsala Universitet. Januari 2016 Problemlösning Anastasia Kruchinina Uppsala Universitet Januari 2016 Anastasia Kruchinina Problemlösning 1 / 16 Exempel ode45 parametrar Miniprojekt 1 Rapport Anastasia Kruchinina Problemlösning 2 / 16

Läs mer

Antag att följande träd genereras i ett spelförande program om vi applicerar evalueringsfunktionen

Antag att följande träd genereras i ett spelförande program om vi applicerar evalueringsfunktionen 1. Komplexiteten hos en agent beror mycket på vilken omgivning den skall verka i. Vad innebär det att en omgivning är stokastisk, episodisk och dynamisk? Ge exempel på en omgivning som är stokastisk, episodisk

Läs mer

TANA17 Matematiska beräkningar med Matlab

TANA17 Matematiska beräkningar med Matlab TANA17 Matematiska beräkningar med Matlab Laboration 1. Linjär Algebra och Avbildningar Namn: Personnummer: Epost: Namn: Personnummer: Epost: Godkänd den: Sign: Retur: 1 Introduktion I denna övning skall

Läs mer

Monte Carlo-metoder. Bild från Monte Carlo

Monte Carlo-metoder. Bild från Monte Carlo Monte Carlo-metoder 0 Målen för föreläsningen På datorn Bild från Monte Carlo http://en.wikipedia.org/wiki/file:real_monte_carlo_casino.jpg 1 Begrepp En stokastisk metod ger olika resultat vid upprepning

Läs mer

TMV166 Linjär Algebra för M. Tentamen

TMV166 Linjär Algebra för M. Tentamen MATEMATISKA VETENSKAPER TMV66 6 Chalmers tekniska högskola 6 8 kl 8:3 :3 (SB Multisal) Examinator: Tony Stillfjord Hjälpmedel: ordlistan från kurshemsidan, ej räknedosa Telefonvakt: Olof Giselsson, ankn

Läs mer

Allmänna Tredjegradsekvationen - version 1.4.0

Allmänna Tredjegradsekvationen - version 1.4.0 Allmänna Tredjegradsekvationen - version 1.4.0 Lars Johansson 0 april 017 Vi vet hur man med rotutdragning löser en andragradsekvation med reella koecienter: x + px + 0 1) Men hur gör man för att göra

Läs mer

Linjärprogramming. EG2205 Föreläsning 7, vårterminen 2015 Mikael Amelin

Linjärprogramming. EG2205 Föreläsning 7, vårterminen 2015 Mikael Amelin Linjärprogramming EG2205 Föreläsning 7, vårterminen 2015 Mikael Amelin 1 Kursmål Formulera korttidsplaneringsproblem för vatten- och värmekraftsystem. 2 Tillämpad matematisk programming Korttidsplanering

Läs mer

Övningshäfte 2: Induktion och rekursion

Övningshäfte 2: Induktion och rekursion GÖTEBORGS UNIVERSITET MATEMATIK 1, MMG200, HT2017 INLEDANDE ALGEBRA Övningshäfte 2: Induktion och rekursion Övning D Syftet är att öva förmågan att utgående från enkla samband, aritmetiska och geometriska,

Läs mer

Hemuppgift 2, SF1861 Optimeringslära för T, VT-10

Hemuppgift 2, SF1861 Optimeringslära för T, VT-10 Hemuppgift 2, SF1861 Optimeringslära för T, VT-1 Kursansvarig: Per Enqvist, tel: 79 6298, penqvist@math.kth.se. Assistenter: Mikael Fallgren, werty@kth.se, Amol Sasane, sasane@math.kth.se. I denna uppgift

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

Extramaterial till Matematik Y

Extramaterial till Matematik Y LIBER PROGRAMMERING OCH DIGITAL KOMPETENS Extramaterial till Matematik Y NIVÅ ETT Samband och förändring ELEV Olika kalkylprogram, till exempel Google Kalkylark och Microsoft Excel, kan användas till en

Läs mer

Procedurella Grottor TNM084. Sammanfattning. Alexander Steen

Procedurella Grottor TNM084. Sammanfattning. Alexander Steen Procedurella Grottor TNM084 Alexander Steen alest849@student.liu.se 13-01-12 Sammanfattning Denna rapport beskriver en metod för att skapa procedurella grottor. Grottorna består utav sammanlänkade rum

Läs mer

Fixpunktsiteration. Kapitel Fixpunktsekvation. 1. f(x) = x = g(x).

Fixpunktsiteration. Kapitel Fixpunktsekvation. 1. f(x) = x = g(x). Kapitel 5 Fixpunktsiteration 5.1 Fixpunktsekvation En algebraisk ekvation kan skrivas på följande två ekvivalenta sätt (vilket innebär att lösningarna är desamma). 1. f(x) = 0. En lösning x kallas en rot

Läs mer

Dubbelintegraler och volymberäkning

Dubbelintegraler och volymberäkning ubbelintegraler och volymberäkning Volym och dubbelintegraler över en rektangel Alla funktioner nedan antas vara kontinuerliga. Om f (x) i intervallet [a, b], så är arean av mängden {(x, y) : y f (x),

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Publicera ett MSD-dokument istället för MXD-dokument

Publicera ett MSD-dokument istället för MXD-dokument Publicera ett MSD-dokument istället för MXD-dokument MSD introducerades i och med version 9.3.1. Syftet är att få så optimerade tjänster som möjligt. Genom analys av dokument får man ut följande kategorier

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad för att man skall

Läs mer

Algoritmer, datastrukturer och komplexitet

Algoritmer, datastrukturer och komplexitet Algoritmer, datastrukturer och komplexitet Övning 4 Anton Grensjö grensjo@csc.kth.se 25 september 215 Anton Grensjö ADK Övning 4 25 september 215 1 / 28 Översikt Kursplanering F9: Dynamisk programmering

Läs mer

Grundläggande logik och modellteori

Grundläggande logik och modellteori Grundläggande logik och modellteori Kapitel 6: Binära beslutsdiagram (BDD) Henrik Björklund Umeå universitet 22. september, 2014 Binära beslutsdiagram Binära beslutsdiagram (Binary decision diagrams, BDDs)

Läs mer

Artificial Intelligence

Artificial Intelligence Omtentamen Artificial Intelligence Datum: 2013-01-08 Tid: 09.00 13.00 Ansvarig: Resultat: Hjälpmedel: Gränser: Cecilia Sönströd Redovisas inom tre veckor Inga G 10p, VG 16p, Max 20p Notera: Skriv läsbart!

Läs mer

SF1545 Laboration 1 (2015): Optimalt sparande

SF1545 Laboration 1 (2015): Optimalt sparande Avsikten med denna laboration är att: SF1545 Laboration 1 (215: Optimalt sparande - snabbt komma igång med träning på matlabprogrammering (uttnyttja gärna alla schemalagda laborationstillfällen, - lösa

Läs mer

Ekvivalensrelationer

Ekvivalensrelationer Abstrakt datatyp för disjunkta mängder Vi skall presentera en abstrakt datatyp för att representera disjunkta mängder Kan bl.a. användas för att lösa ekvivalensproblemet avgör om två godtyckliga element

Läs mer

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående MATEMATISKA INSTITUTIONEN STOCKHOLMS UNIVERSITET Christian Gottlieb Gymnasieskolans matematik med akademiska ögon Induktion Dag 1 1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta

Läs mer

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1 Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens

Läs mer

4x 1 = 2(x 1). i ( ) får vi 5 3 = 5 1, vilket inte stämmer alls, så x = 1 2 är en falsk rot. Svar. x = = x x + y2 1 4 y

4x 1 = 2(x 1). i ( ) får vi 5 3 = 5 1, vilket inte stämmer alls, så x = 1 2 är en falsk rot. Svar. x = = x x + y2 1 4 y UPPSALA UNIVERSITET Matematiska institutionen Styf Prov i matematik BASKURS DISTANS 011-03-10 Lösningar till tentan 011-03-10 Del A 1. Lös ekvationen 5 + 4x 1 5 x. ( ). Lösning. Högerledet han skrivas

Läs mer

Uppgift 1. Minimeringsproblemet löses med en Monte Carlo algoritm:

Uppgift 1. Minimeringsproblemet löses med en Monte Carlo algoritm: Uppgift 1 Minimeringsproblemet löses med en Monte Carlo algoritm: 1) initiera elementen i vektorn s slummässigt med +/-1 2) räkna ut värdefunktionen (ekvationen given i uppgiften) 3) starta iteration 4)

Läs mer

Föreläsning 11. Giriga algoritmer

Föreläsning 11. Giriga algoritmer Föreläsning 11 Giriga algoritmer Föreläsning 11 Giriga algoritmer Användning Växelproblemet Kappsäcksproblemet Schemaläggning Färgläggning Handelsresandeproblemet Giriga algoritmer (Greedy algorithms)

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

FMNF15 HT18: Beräkningsprogrammering Numerisk Analys, Matematikcentrum

FMNF15 HT18: Beräkningsprogrammering Numerisk Analys, Matematikcentrum Johan Helsing, 11 oktober 2018 FMNF15 HT18: Beräkningsprogrammering Numerisk Analys, Matematikcentrum Inlämningsuppgift 3 Sista dag för inlämning: onsdag den 5 december. Syfte: att träna på att hitta lösningar

Läs mer

PCP-satsen på kombinatoriskt manér

PCP-satsen på kombinatoriskt manér austrin@kth.se Teorigruppen Skolan för Datavetenskap och Kommunikation 2005-10-24 Agenda 1 Vad är ett bevis? Vad är ett PCP? PCP-satsen 2 Vad, hur och varför? Lite definitioner Huvudresultatet 3 Ännu mer

Läs mer

SF1544 LABORATION 2 INTEGRATION, MONTE-CARLO OCH BLACK-SCHOLES EKVATION FÖR OPTIONER

SF1544 LABORATION 2 INTEGRATION, MONTE-CARLO OCH BLACK-SCHOLES EKVATION FÖR OPTIONER SF1544 LABORATION INTEGRATION, MONTE-CARLO OCH BLACK-SCHOLES EKVATION FÖR OPTIONER Avsikten med denna laboration är att: - snabbt komma igång med träning på matlabprogrammering (uttnyttja gärna alla schemalagda

Läs mer

SF1669 Matematisk och numerisk analys II Lösningsförslag till tentamen DEL A. r cos t + (r cos t) 2 + (r sin t) 2) rdrdt.

SF1669 Matematisk och numerisk analys II Lösningsförslag till tentamen DEL A. r cos t + (r cos t) 2 + (r sin t) 2) rdrdt. 1. Beräkna integralen medelpunkt i origo. SF1669 Matematisk och numerisk analys II Lösningsförslag till tentamen 218-3-14 D DEL A (x + x 2 + y 2 ) dx dy där D är en cirkelskiva med radie a och Lösningsförslag.

Läs mer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 5. Kapitel 6, sid Inferens om en population Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning

Läs mer

Fuzzy Logic: Den oskarpa skarpheten

Fuzzy Logic: Den oskarpa skarpheten Fuzzy Logic: Den oskarpa skarpheten Av: 1 Innehåll Inledning... 3 Vad är Fuzzy Logic?... 4 Fuzzy sets... 4 Medlemsskapsfunktion... 5 Operatorer... 7 Union... 7 Snitt... 8 Komplement... 8 Exempel med de

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

ELLER (fyll bara i om du saknar tentamenskod): Datum: 32 maj Bordsnummer: Kontrollera att du fått rätt tentamensuppgifter

ELLER (fyll bara i om du saknar tentamenskod): Datum: 32 maj Bordsnummer: Kontrollera att du fått rätt tentamensuppgifter FÖRSÄTTSBLAD TILL TENTAMEN Din tentamenskod (6 siffror): ELLER (fyll bara i om du saknar tentamenskod): Personnummer: - Datum: 32 maj 4711 Kursens namn (inkl. grupp): Beräkningsvetenskap I (1TD393 DEMO)

Läs mer

Den intelligenta dammsugaren

Den intelligenta dammsugaren Institutionen för Datavetenskap presenterar: Den intelligenta dammsugaren En laboration i fyra delar Laborationen utvecklad av KogVet- studenter Reviderad 2007: Jenny Dalenius 1 Hej och välkommen! Bilden

Läs mer

Lösning till fråga 5 kappa-06

Lösning till fråga 5 kappa-06 Lösning till fråga 5 kappa-06 Figurer till uppgift a) ligger samlade efter uppgiften. Inledning Betrakta först N punkter som tillhör den slutna enhetskvadraten inlagd i ett koordinatsystem enligt figur

Läs mer

Föreläsning 12. Söndra och härska

Föreläsning 12. Söndra och härska Föreläsning 12 Söndra och härska Föreläsning 12 Söndra och härska Maximal delsekvens Skyline Closest pair Växel Söndra och härska (Divide and conquer) Vi stötte på dessa algoritmer när vi tittade på sortering.

Läs mer

Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.

Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Föreläsning 9: Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står

Läs mer

inte följa någon enkel eller fiffig princip, vad man nu skulle mena med det. All right, men

inte följa någon enkel eller fiffig princip, vad man nu skulle mena med det. All right, men MATEMATISKA INSTITUTIONEN STOCKHOLMS UNIVERSITET Christian Gottlieb Gymnasieskolans matematik med akademiska ögon Induktion Dag 2. Explicita formler och rekursionsformler. Dag mötte vi flera talföljder,

Läs mer

Kurs DN1215, Laboration 3 (Del 1): Randvärdesproblem för ordinära differentialekvationer

Kurs DN1215, Laboration 3 (Del 1): Randvärdesproblem för ordinära differentialekvationer Kurs DN1215, Laboration 3 (Del 1): Randvärdesproblem för ordinära differentialekvationer Michael Hanke, Johan Karlander 2 april 2008 1 Beskrivning och mål Matematiska modeller inom vetenskap och teknik

Läs mer

1 LP-problem på standardform och Simplexmetoden

1 LP-problem på standardform och Simplexmetoden Krister Svanberg, mars 202 LP-problem på standardform och Simplexmetoden I detta avsnitt utgår vi från LP-formuleringen (2.2) från föreläsning. Denna form är den bäst lämpade för en strömlinjeformad implementering

Läs mer

Kvalificeringstävling den 28 september 2010

Kvalificeringstävling den 28 september 2010 SKOLORNS MTEMTIKTÄVLING Svenska Matematikersamfundet Kvalificeringstävling den 28 september 2010 Förslag till lösningar Problem 1 En rektangel består av nio smårektanglar med areor (i m 2 ) enligt figur

Läs mer

Tillämpad Programmering (ID1218) :00-13:00

Tillämpad Programmering (ID1218) :00-13:00 ID1218 Johan Montelius Tillämpad Programmering (ID1218) 2014-03-13 09:00-13:00 Förnamn: Efternamn: Regler Du får inte ha något materiel med dig förutom skrivmateriel. Mobiler etc, skall lämnas till tentamensvakten.

Läs mer

Problem: FIL File Paths

Problem: FIL File Paths Problem: FIL File Paths swedish BOI 2015, dag 2. Tillgängligt minne: 256 MB. 1.05.2015 Byteasar tycker om att leva farligt. Han springer med saxar, skickar in lösningar på tävlingsproblem utan att testa

Läs mer

TAIU07 Matematiska beräkningar med Matlab

TAIU07 Matematiska beräkningar med Matlab TAIU07 Matematiska beräkningar med Matlab Laboration 3. Linjär algebra Namn: Personnummer: Epost: Namn: Personnummer: Epost: Godkänd den: Sign: Retur: 1 Introduktion 2 En Komet Kometer rör sig enligt ellipsformade

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Flera digitala verktyg och räta linjens ekvation

Flera digitala verktyg och räta linjens ekvation Matematik Grundskola årskurs 7-9 Modul: Matematikundervisning med digitala verktyg I Del 8: Matematikundervisning och utveckling med digitala verktyg Flera digitala verktyg och räta linjens ekvation Håkan

Läs mer

Föreläsning 2: Simplexmetoden. 1. Repetition av geometriska simplexmetoden. 2. Linjärprogrammeringsproblem på standardform.

Föreläsning 2: Simplexmetoden. 1. Repetition av geometriska simplexmetoden. 2. Linjärprogrammeringsproblem på standardform. Föreläsning 2: Simplexmetoden. Repetition av geometriska simplexmetoden. 2. Linjärprogrammeringsproblem på standardform. 3. Simplexalgoritmen. 4. Hur bestämmer man tillåtna startbaslösningar? Föreläsning

Läs mer

Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003

Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003 2003-12-02 Institutionen för datavetenskap Arne Jönsson/* Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003 1. Förklara de olika egenskaper en omgivning kan ha och ge exempel på en omgivning

Läs mer

Föreläsning 12. Söndra och härska

Föreläsning 12. Söndra och härska Föreläsning 12 Söndra och härska Föreläsning 12 Söndra och härska Maximal delsekvens Skyline Closest pair Växel Uppgifter Söndra och härska (Divide and conquer) Vi stötte på dessa algoritmer när vi tittade

Läs mer

Mer om analytisk geometri

Mer om analytisk geometri 1 Onsdag v 5 Mer om analytisk geometri Determinanter: Då man har en -matris kan man till den associera ett tal determinanten av som också skrivs Determinanter kommer att repeteras och studeras närmare

Läs mer

Lösningsförslag, Inlämningsuppgift 2, PPU203 VT16.

Lösningsförslag, Inlämningsuppgift 2, PPU203 VT16. Lösningsförslag, Inlämningsuppgift 2, PPU203 VT16. Deluppgift 1: En segelbåt med vinden rakt i ryggen har hissat spinnakern. Anta att segelbåtens mast är ledad i botten, spinnakern drar masttoppen snett

Läs mer

Icke-linjära ekvationer

Icke-linjära ekvationer stefan@it.uu.se Exempel x f ( x = e + x = 1 5 3 f ( x = x + x x+ 5= 0 f ( x, y = cos( x sin ( x + y = 1 Kan endast i undantagsfall lösas exakt Kan sakna lösning, ha en lösning, ett visst antal lösningar

Läs mer

GeneTrader. Ett helautomatiserat tradingsystem

GeneTrader. Ett helautomatiserat tradingsystem GeneTrader Ett helautomatiserat tradingsystem Johan Näslund, GeneSoft AB G E N E S O F T AB W W W.GENESOFT.SE +46 8 411 48 48 K U N G S G A T A N 62, 4TR 111 22 STOCKHOL M 1 (8) Innehållsförteckning 1

Läs mer

Faktorisering med hjälp av kvantberäkningar. Lars Engebretsen

Faktorisering med hjälp av kvantberäkningar. Lars Engebretsen Faktorisering med hjälp av kvantberäkningar Lars Engebretsen 003-11-18 Bakgrund Vanliga datorer styrs av klassiska fysikens lagar. Vanliga datorer kan simuleras av turingmaskiner i polynomisk tid. Kanske

Läs mer

Faktorisering med hjälp av kvantberäkningar. Lars Engebretsen

Faktorisering med hjälp av kvantberäkningar. Lars Engebretsen Faktorisering med hjälp av kvantberäkningar Lars Engebretsen 00-1-03 Lars Engebretsen 00-1-03 Bakgrund Vanliga datorer styrs av klassiska fysikens lagar. Vanliga datorer kan simuleras av turingmaskiner

Läs mer

public static void mystery(int n) { if (n > 0){ mystery(n-1); System.out.print(n * 4); mystery(n-1); } }

public static void mystery(int n) { if (n > 0){ mystery(n-1); System.out.print(n * 4); mystery(n-1); } } Rekursion 25 7 Rekursion Tema: Rekursiva algoritmer. Litteratur: Avsnitt 5.1 5.5 (7.1 7.5 i gamla upplagan) samt i bilderna från föreläsning 6. U 59. Man kan definiera potensfunktionen x n (n heltal 0)

Läs mer

UPPGIFT 1 V75 FIGUR 1.

UPPGIFT 1 V75 FIGUR 1. UPPGIFT 1 V75 FIGUR 1. Varje lördag året om spelar tusentals svenskar på travspelet V75. Spelet går ut på att finna sju vinnande hästar i lika många lopp. Lopp 1: 5 7 Lopp 2: 1 3 5 7 8 11 Lopp 3: 2 9 Lopp

Läs mer

Block 5: Ickelineära. ekvationer? Läroboken. Löpsedel: Icke-lineära. ekvationer. Vad visade laborationen? Vad visade laborationen?

Block 5: Ickelineära. ekvationer? Läroboken. Löpsedel: Icke-lineära. ekvationer. Vad visade laborationen? Vad visade laborationen? Block 5: Ickelineära ekvationer Löpsedel: Icke-lineära ekvationer Varför är det svårt att lösa ickelineära ekvationer? Iterativa metoder Bisektion/intervallhalvering Newton-Raphsons metod Noggrannhet/stoppvillkor

Läs mer