Lärande genom interaktion

Storlek: px
Starta visningen från sidan:

Download "Lärande genom interaktion"

Transkript

1 Lärande genom interaktion Förstärk inlärning, specifikt Q-learning Ebba Algvere 729G43 Artificiell Intelligens Linköpings Universitet 2017

2 Abstract This report will provide the reader with an understanding of reinforcement learning, specifically Q-learning. A literature study has been conducted in order to create a deeper understanding of Q-learning. Major principles within reinforcement learning have been studied and presented, as well as how these are of relevance in Q-learning. The algorithm for Q-learning has been presented, explained and applied on a problem. Finally, advantages and disadvantages have been presented and discussed. Denna rapport kommer att ge läsaren en förståelse för förstärkt inlärning, specifikt Q- learning. En litteraturstudie har genomförts i syfte att skapa en djupare förståelse för Q- learning. Huvudsakliga principer inom förstärktinlärning har studerats och presenterats, samt hur dessa är av betydelse för Q-learning. Algoritmen för Q-learning har presenterats, förklarats samt applicerats på ett problem. Slutligen har fördelar och nackdelar diskuterats. Key words: Reinforcement learning, Q-learning, Markov Decision Process, Policy, Temporal Difference, Exploration, Exploitation Ebba Algvere ebbal G43 Artificiell Intelligens 2

3 Innehållsförteckning Innehållsförteckning 2 Förstärkt Inlärning 4 Delar inom förstärkt inlärning 5 Markov Beslutsprocess 5 Optimala grundprinciper 6 Temporal Difference 7 Off-policy 7 Exploration vs exploitation 7 Q-learning 8 Q- learning agent 9 Algoritm 9 Räkneexempel 11 Nackdelar 15 Fördelar 15 Mina Tankar 16 Referenser 17 Ebba Algvere ebbal G43 Artificiell Intelligens 3

4 Förstärkt Inlärning Det som presenteras i följande avsnitt är vad som ligger till grund för Q-learning och är därför viktigt att förstå. Förstärkt inlärning (eng. reinforcement learning) handlar i huvudsak om lärande genom interaktion (Callan, 2003). Inom detta finns det en agent som lär sig samt fattar beslut om vilka handlingar som ska utföras i miljön. Miljön ger belöningar, i form av nummer. Callan förklarar att förstärkt inlärning kartlägger situationer, även kallade tillstånd (eng. state), och handlingar (eng. actions) för att kunna uppnå ett beräkeligt tillvägagångssätt av hur agenten lär sig genom interaktion med sin omgivning (se figur 1). Tillstånd beskriver, enligt Callan, hur världen ser ut nu, medan handlingar är övergången mellan ett tillstånd till ett annat. Detta görs genom att agenten får återkoppling från sin omgiving i form av belöning eller bestraffning, alltså äger ingen explicit övervakning rum. Målet är att maximera den totala belöningen (Sutton & Barto, 1998). Denna typ av inlärnings ger agenten kunskap om konsekvenser som uppstår efter vissa handlingar, och kan därför uppmuntra vissa handlingar och därmed förstärka (eng. reinforce) dessa (Russell & Norvig, 2014). Vidare kan denna återkoppling ske både i kontinuelig form, som i pingis, eller i slutet, som i schack. Agenten kommer efter ett tag att hitta förbättrade lösningar om hur den ska uppnå sitt explicita (Sutton & Barto, 1998) mål efter att ha integrerat med och därmed lärt sig med om miljön den beginner sig i (Callan, 2003). Vidare kombinerar agenten både tidigare erfarenhet samt utforskande vid val av handling (Russell & Norvig, 2014) någonting denna text återkommer till. Agent Belöning Handling Tillstånd Miljö / omgivning Figur 1 Visar hur agenten och miljön integrerar med varandra i förstärkt inlärning (Sutton & Barto, 1998). Ebba Algvere ebbal G43 Artificiell Intelligens 4

5 Delar inom förstärkt inlärning Enligt Sutton & Barto (1998) finns det, förutom agenten och omgivningen, flertalet subdelar som har stor betydelse för ett förstärktinlärningssystem. Dessa är grundprinciper (eng. policy), belöningsfunktion (eng. reward function), värdefunktion (eng. value function) och modell av miljön (eng.model of the enviroment). Dessa kommer kort att beskrivas i enlighet med Sutton & Barto: Grundprinciper definierar agenten sätt att bete sig för varje given tidpunkt, och styr därför val av handling. Detta genom en kartläggning från uppfattade tillstånd av miljön till handlingar som bör utföras vid de specifika tillstånden (Callan, 2003). Sutton & Barto menar att grundprinciperna är kärnan inom förstärkt inlärning eftersom de är tillräckligt för att avgöra agentens agerande i visst tillstånd. Belöningsfunktionen definierar målet i inlärningsproblemet och vad som är bra respektive dåliga händelser för agenten. En kartläggning för varje uppfattat tillstånd ( eller tillstånds-handlingspar) till miljön och ett nummer som representerar belöningen för tillståndet avgör hur önskvärt ett visst tillstånd är. Som tidigare nämnts, strävar agenten efter att maximera sin belöning långsiktigt, och en belöningsfunktion är därför nödvändig för att kunna räkna på just detta. Eftersom agenten vill maximera sin belöning långsiktigt, bör måltillståndet ha högst belöningsvärde (Callan, 2003). Vidare kan grundprinciperna ändras beronde på belöningsvärdet ett visst tillstånd genererar, i syfte att generera en bättre belöning i framtiden (Sutton & Barto, 1998). Värdefunktionen definerar vad som är bra långsiktigt. Detta innebär att värdet av ett tillstånd är vad agenten kan förvänta sig från tillståndet den är i nu och i framtiden. En modell av miljön används för planering, eftersom de efterliknar omgivingens beteende. Markov Beslutsprocess Den huvudsakliga uppgiften för en Markov beslutprocess (eng. Markov Decision Process) är att finna optimala grundprinciper. Enligt Sutton & Barto (1998) är en Markov beslutsprocess en förstärktinlärningsuppgift som uppfyller Markov egenskapen (eng. Markov property). Markov egenskapen är de samlade egenskaperna av miljön och dess tillståndssignaler som är särskilt intressanta. Alltså ett tillstånd som har all information som är relevant. En miljö som har Markov egenskapen möjliggör för oss att förutspå nästa tillstånd och dess belöning givet nuvarande tillstånd och handling. Enligt Watkins (1989) består en Markov beslutsprocess av Ebba Algvere ebbal G43 Artificiell Intelligens 5

6 fyra delar; en tillståndsrymd S (eng. state-space), en funktion som ger alla möjliga tillstånd för varje möjligt tillstånd A (eng. function), en övergångsfunktion T (eng. transition function) och en belöningsfunktion R (eng. reward function). Dessa fyra delar integrerar på det sätt att en agent befinner sig i ett tillstånd där en funktion med alla nya möjliga tillstånd presenteras. Agenten kan då välja en handling för att ta dig till ett nytt tillstånd, genom en övergångsfunktion. Slutligen räknar belöningsfunktionen ut den belöning agenten får för att ha förflyttat sig, från detta börjar agenten om tills det att måltillståndet är uppnått. I ett tillstånd där agenten kan välja mellan flertalet handlingar, använder den sina grundprinciper för att välja handling (Sutton & Barto, 1998). En Markov beslutsprocess representeras med en tupel på följande vis (Otterlo & Wiering): < A, S, T, R > Optimala grundprinciper En optimal grundprincip (eng. optimal policy) definierar vilken handling som bör utföras vid varje tillstånd (Callan, 2003) eftersom den maximerar totalt förväntad belöning (Russell & Norvig, 2014). Detta innebär att belöningar kan användas för att definiera optimala grundprinciper i Markov beslutsprocesser (Russell & Norvig, 2014). Genom sin interaktion med omgivningen, försöker alltså en Q-learning agent att finna en optimal grundprincip att välja för sina val av handlingar. Agenten gör detta genom att samla data från sin historia, kan agenten lära sig vad den ska göra. När agenten rör sig i världen skapas en tillstånd (s) handling (a) belönings (r) sekvens: < s0,a0, r1, s1, a1, r2, s2, a2, r3 > Detta innebär att när agenten var i tillstånd s0 och utförde handling a0 vilket resulterade i belöningen r1 och tillstånd s1. Detta kan simplifieras till tupeln: < s,a, r, s > Detta blir till datan som agenten använder sig av för att lära sig och därmed finna optimala grundprinciper och därmed använda vid val av handling. Datan defineras i Q-värden (eng. Q- values) (Poole & Mackworth, 2010) som representerar samt retunerar nyttan (eng.utility) för varje tillstånd-handlingspar = Q( s, a). Russel & Norvig (2014) menar att detta visar värdet av att göra handling a i tillstånd s. Detta är nödvändigt för att definiera en optimal grundprincip, efterson nyttan indikerar hur önskvärt ett tillstånd är (Callan, 2003). Q ( tillstånd s * handling a) à värde (Luger, 2009) Värdet V för tillstånd s under grundprincipen p kan representeras på följande vis: Vp(s) Ebba Algvere ebbal G43 Artificiell Intelligens 6

7 På samma vis representeras Q-värdet för handling a i tillstånd s under grundprinicpen p: Qp(s, a) (Eden, Knittel, & Uffelen, 2017) Temporal Difference Temporal skillnadsinlärning (eng. temporal difference learning) ses ofta som den centrala grundidén inom förstärkt inlärning. Temporal skillnadsinlärning kan lära sig från sina erfarenhet, utan att behöva en modell av världen Detta används inom förstärkt inlärning. Temporal skillnadsinlärning kombinerar dynamisk programmering (eng. dynamic programming) och Monte Carlo metoder (eng. Monte Carlo methods). Dynamisk programmering gör nuvarande uppskattningar baserat på vad som tidigare etablerats för varje steg, detta kallas bootstrapping.vidare använder Monte Carlo metoder ett urval av datan för att lära sig enligt sina grunsprinciper. Metoden lär sig alltså direkt från episoder av den summerade erfarenheten vilket betyder att den inte behöver en modell av världen för att lära sig (Silver) (Sutton & Barto, 1998). Kombinationen av dessa gör att temporal skillnadsinlärning inte behöver en modell av världen och systemet lär sig från direkt interaktion med omgivingen där uppdateringar från sitt lärande görs, detta genom bootstrapping (Silver) (Kunz). Off-policy En agent som följer en avvikande-grundprincip (eng. off-policy) innebär att de grundprinciperna som agenten lärt sig, inte nödvändigtvis är de som används vid val av handling (Sutton & Barto, 1998). Dock lär sig agenten den optimala grundprincipen oberoende av agenten handlingar (Poole & Mackworth, 2010). Exploration vs exploitation Utforskande (eng. exploration) och utnyttjande (eng. exploitation) handlar i huvudsak om agenten ska prova en ny handling, som kanske inte är optimal, eller utföra den handling som agenten för tillfället tror är bäst givet ett tillstånd (Shrum, 2015). Ebba Algvere ebbal G43 Artificiell Intelligens 7

8 Q-learning Det som presenterats i tidigare avsnitt har varit det som utgör grunden i Q-learning och används därefter. Följande stycken kommer att knyta an till tidigare presenterade kunskaper och dessa är därför nödvändiga för förståelsen för kommande avsnitt. Q-learning är en förstärktinlärningsmetod, specifikt en variant/typ av en temporal skillnadsmetod (Luger, 2009), och därmed även en blandning Monte Carlo metoder och dynamisk programmering (Sutton & Barto, 1998). Q-learning används för att hitta en optimal grundprincip för en begränsad Markov beslutsprocess, detta genom sina belöningar (Russell & Norvig, 2014). Vidare lär sig agenten utan en modell, alltså modell-fri, eftersom Q- funktionen inte kräver en modell för val av handling eller inlärning (Russell & Norvig, 2014). Q-learning är även en off-policy metod vilket innebär, som tidigare nämnts, att agenten kommer alltid att lära sig den optimala grundprincipen. En Q-learning agent använder sig en värdefunktion eller tillstånd-handlingspar funktion för att räkna ut ett Q-värde (Russell & Norvig, 2014). Q värdet indikerar hur önskvärt ett visst tillstånd är agenten kan därmed lära sig utan att från början ha en modell av världen. För att skapa sig en uppfattning av världen, genom etablering av Q värden, agerar agenten först slumpartat (Luger, 2009). Detta innebär att agenten lär sig genom interkation med sin omgiving. Agenten kommer, efter flertalet interaktioner med omgivingen, att hitta en optimal grundprincip. När en optimal grundprincip är nådd kommer agenten att kunna finna den optimala vägen från ett starttillstånd till ett måltillstånd. Agenten strävar efter att maximera sina belöningar långsiktigt och agerar därefter (Sutton & Barto, 1998). När Q-learning agenten intregerar med omgivingen måste den göra en avvägning mellan hur mycket det ska utforska (eng. exploration) och hur mycket den ska uttnyttja (eng exploitation) sina erfarenheter vid val av handling. Agenten vill bara lära sig bra handlingar som den tror tar den närmare måltillståndet, men i början av agentens interaktion med omgivingen vet den inte vilka dessa handlingar är givet tillståndet den befinnner sig i. Agenten måste prova alla handlingar för ett givet tillstånd ett antal gånger och ibland utföra en handling den inte tror är bäst. Denna avvägning mellan utforskande och utnyttjande avvägs av e (epsilon). e reprsenterar den procentuella andelen gånger som agenten kommer att utforska en ny handling istället för att utföra den handling den tror är bäst. Om e = 0.1, kommer agenten att Ebba Algvere ebbal G43 Artificiell Intelligens 8

9 utföra en slumpartat handling 10% av gångerna och 90% av gångerna utföra den handling som dess Q-värden säger är bäst, medan den lär sig. e är nödvändig eftersom det alltid finns en risk att det agenten lärt sig är felaktigt, vidare kan agenten inte ignorera en viss handling för evigt. Det gör ingenting om handlingen som utförs på grund av e inte är optimal eftersom algoritmensinlärningsuppdatering ( r t +1 + maxq(s t + 1, a) se fullständig algoritm nedan) lär sig en grundprincip som är baserad på den bästa handlingen för varje tillstånd. Q-learning är alltså en avvikande-grundprincip (eng. off-policy). Detta innebär att agenten använder sig av en grundprincip när den lär sig, specifikt kallas e-greedy grundprincip (eng. e-greedy policy), i detta fall där agenten utför en slumpad handling 10% av gångerna. Trots detta kommer den grundprincip som reflekteras från Q-värderna att vara optimal (Shrum, 2015) (Sutton & Barto, 1998). Q- learning agent En agent är den som lär sig samt den som fattar beslut om vilka handlingar som ska utföras (Sutton & Barto, 1998). För agenten är uppgiften inom förstärktinlärning att använda sig av observerbara belöningar i syfte att lära sig en optimal policy för miljön den befinner sig i (Russell & Norvig, 2014). Algoritm I ett förstärktinlärningsproblem finns det en agent, tillstånd S och ett antal handlingar A per tillstånd. När agenten utför en handling a A, kan agenten förflytta sig mellan tillstånd och får därmed en belöning. Belöningarna R varierar beroende på tillstånd, detta eftersom tillstånd har olika belöningar. Högre belöning innebär att tillståndet är med önskvärt, tillståndet med högst belöning är därmed måltillståndet. Agenten vill därmed maximera sin totala framtida belöning eftersom detta leder till att agenten hamnar i måltillståndet. Genom att räkna ut ett Q värde kan agenten finna en optimal grundprincip för varje tillstånd, det vill säga vilken handling som ska utföras. Detta leder sedan agenten från starttillståndet till måltillståndet genom en handlingssekvens. Belöningen räknas ut genom summan av förväntade värden av alla framtida steg, med start från nuvarande tillstånd. Ebba Algvere ebbal G43 Artificiell Intelligens 9

10 Genom att räkna ut ett Q-värde för varje tillstånd-handlingspar kan en komplett belöningstabell skapas. Q(S x A) à R Q(tillstånd x handling) à belöning För Q-learning har vi följande algoritm för att kunna räkna ut ett Q-värde: Q(s t, a t ) ß Q(s t, a t ) + a(r t +1 + maxq(s t + 1, a) Q(s t, a t )) a För denna funtion räknar vi ut Q värdet för handling a i tillstånd s vid tid t, som leder till tillstånd s t+1. Följande stycken förklarar algoritmens delar: Q(s t, a t ) är tillståndet agenten är i nu samt den handling agenten utförde. Pilen (ß ) betyder att vänster uppdateras till det som är på höger sida, Q-värdet för tillstånd s och handling a uppdateras alltså med värdet funktionen räknar ut. a är inlärningsparametern (eng. learning rate), och har ett värde mellan 0 < a > 1. Inlärningsparametern representerar hur snabbt agenten lär sig och därmed Q-värderna uppdateras, det vill säga hur mycket Q-värdet uppdateras vid varje handling. Är a nära 0 uppdateras inte Q-värderna, medan de uppdateras snabbt vid ett värde nära 1. Vi måste ha en inlärningparamenter som är godtycklig för inlärningsproblemet. Har vi en inlärningparamenter som är = 1, uppdaterar Q-värdet (Q(s t, a t )) med det kommande värdet ((r t +1 + maxq(s t + 1, a) för mycket vilket innebär att det till en början, när agenten inte lärt sig, a blir felaktigt. Inlärningsparametern reglerar därför hur mycket av funktionen a(r t +1 + maxq(s t + 1, a) Q(s t, a t )) som ska uppdateras för att agenten ska kunna ta sig till målet a långtisktigt. r t +1 är belöningen vid nästa tidpunk.(r t är den direkta belöningen) är diskonteringsfaktorn (eng. discount factor) och väger vikten mellan omedelbar belöning och framtid belöning. kan vara mellan 0 <= => 1, där framtida belöningar anses vara viktigare ju nä rmare är 1 och direkta belöningar anses vara viktigare när är närmare 0. I Q-learning vill agenten se till de totala framtida belöningarna framför direkta, vi vill därmed att ska vara nära 1. I denna rapport är = 1. Ebba Algvere ebbal G43 Artificiell Intelligens 10

11 MaxQ(s t + 1, a) är det maximala Q-värdet som kan nås från nästa tillstånd från a nuvarande tillstånd och alla möjliga handlingar som kan utföras i det tillståndet. När agenten var i Q(s t, a t ), alltså tillstånd s t och utförde handling a t ledde det till tillstånd s t + 1. Agenten håller nu i alla möjliga handlingar a för tillstånd s t + 1 ( = MaxQ(s a t + 1, a)). Ageten kommer att titta på alla möjliga handlingar a från tillstånd s t + 1, där den handling med högst värde kommer att bli värdet för hela delen MaxQ(s t + 1, a). a (Russell & Norvig, 2014) (Eden, Knittel, & Uffelen, 2017) (Schrum, 2015) Sammanfattningsvis är de faktiska stegen för algoritmen (med matriser) följande: - Skapa en R matris utifrån belöningar - Skapa och nollställ en Q matris för agenten Q-värden - Bestäm värde för inlärningsparametern och diskonteringsfaktorn - För varje episod (från intitialtillstånd till måltillstånd) gäller: o Agenten utför en handling, antingen den som agenten tror är bäst eller som e sannolikheten tvingar den slumpa. o Räkna ut Q-värde för tillstånd och handling givet viss tid. o Uppdatera Q matrisen med Q-värdet o Nästa tillstånd blir nuvarande tillstånd tills det att måltillståndet uppnåtts, då avslutas episoden och en ny börjar. (Tekonomo, 2005) (Nyman, 2017) Räkneexempel Följande Q-learning exempel, med viss modifiering, kommer från Teknomo (2005) och Nyman (2017) och använder matriser för att visa på hur en agent lär sig om en miljö med hjälp av Q-learning. Agenten har ingen tidigare kunskap om miljön och inlärningsprocessen är oövervakad. I exemplet finns det fem rum, där agentens mål är att befinna sig i rum 5. Rummen har dörrar mellan sig som visar på hur agenten kan handla i utrymmet. Det är endast rum 4 och 1 som leder till målrummet 5. Detta kan representeras på två vis: Ebba Algvere ebbal G43 Artificiell Intelligens 11

12 I syfte att representera miljön och vad agenten lär sig genom interaktion skapas två matriser. I matriserna representeras tillståndet (eng. state) i rader och handlingar (eng. actions) i kolumner. Målet är att lära agenten gå till rum 5, detta genom att ge rum 5 den högsta belöningen. Vi vill därför tilldela de olika rummen olika belöningsvärden (matris R). I matris R representerar tilldelar vi vägarna till rum 5 ett direkt belöningsvärde (eng. instant reward) av 100, ogiltiga vägar -1 och andra vägar 0. Vi vill även skapa ett minne för agenten som uppdatering genom interaktion med miljön (matris Q), detta initialiseras till 0. Två matriser skapas: För att fylla i Q matrisen baserad på agenten interaktion med omgivningen används följande funktion: Q(state, action) = R(state, action) + Gamma * Max [ Q(next state, all actions) ] Förklaring av funktion: - Q(state, action) och R(state, action) finner vi i respektive matriser - Gamma är inlärningsparametern, mellan 0 <= Gamma => 1. Ju närmare siffran är 0, ju mer övervägs direkta belöningar. Samt ju närmare siffran är 1, ju mer övervägs framtida belöningar vilket gör agenten villig till att vänta med belöningen. - Max [ Q(next state, all actions) ] är maximala värdet från alla möjliga framtida tillstånd utifrån nuvarande tillstånd. Ebba Algvere ebbal G43 Artificiell Intelligens 12

13 Agenten kommer att utforska världen tills det att den uppnår måltillståndet, detta kallas för en episod (eng. episode). Varje episod börjar med ett slumpat initialtillstånd och agentens handling slumpas genom hela episoden. För varje episod uppdateras Q matrisen. Steg för uppdatering av Q matrisen: 1. Nuvarandetillstånd = initialtillstånd 2. Hitta handlingen med högst Q-värde ( Q(tillstånd, handling) ) utifrån nuvarande tillstånd 3. Nuvarandetillstånd = nästatillstånd 4. Upprepa steg 2 och 3 tills det att nuvarande tillstånd = måltillstånd Detta kommer att returnera en sekvens av tillstånd som går från initialtillståndet till måltillståndet. Dessa matriser har skapats för rum-problemet där målet är för agenten att ta sig till rum 5: Vi sätter inlärningsparametern, Gamma, till 0.8. Initialtillståndet slumpas till 1. R matrisen visar vilka handlingar som finns från tillstånd 1. Dessa är att gå till rum 3 = belöning 0 eller rum 5 = belöning 100 (rummen med värde -1 är icke-handlingar). Slumpen väljer handlingen 5. Nu föreställer vi oss att vi är i rum 5. Vi ser då till rad 5 i R matrisen och finner att möjliga handlingar är 1, 4 och 5. Vi applicerar funktionen från tillstånd 1 till handling 5 och tar värden ifrån R matrisen: Q(state, action) = R(state, action) + Gamma * Max [ Q(next state, all actions) ] Q(1, 5) = R(1, 5) * Max [ Q(5, 1), Q(5, 4), Q(5, 5) ] = *Max( 0, 0,0 ) = 100 Det nuvarande tillståndet blir 5, men eftersom det är måltillståndet avslutas denna episod. Detta gör att vi kan uppdatera vår Q matris med Q(1, 5) = 100. Ebba Algvere ebbal G43 Artificiell Intelligens 13

14 Nästa episods initialstillstånd slumpas till 3. Enligt R matrisen kan vi från tillstånd 3 generera handling 1, 2 eller 4. Slumpen gör att 1 blir vald handling. Möjliga framtida handlingar från tillstånd 1 är enligt R matrisen 3 och 5. Vi kan nu räkna ut Q-värdet för Q(3, 1) enligt: Q(state, action) = R(state, action) + Gamma * Max [ Q(next state, all actions) ] Q(3, 1) = R(3, 1) * Max [ Q(1, 3), Q(1, 5)] = * Max (0, 100) = 80 Vi kan nu uppdatera vår Q matris med Q(3, 1) = 80. Nästa initialtillstånd blir 1 och vi fortsätter eftersom vi ännu inte uppnått måltillståndet, och algoritmen körs igen. Agenten fick ingen belöning för att gå från tillstånd 3 till 1 eftersom R(3, 1) = 0. Agenten uppdaterade dock sitt Q-värde för Q(3, 1) vilket, för tillfället enligt Q matrisen, indikerar att den är på rätt väg för att komma till mål. Från tillstånd 1 finns handlingarna 3 eller 5. 5 väljs slumpvis. Vi tittar nu på möjliga framtida handlingar från tillstånd 5, dessa är 1, 4 och 5. Q värdet för Q(1, 5). Den direkta belöningen är 100 (från R(1, 5) eftersom den andra delen av ekvationen 0.8 * Max [ Q(5, 1), Q(5, 4), Q(5, 5) ] = 0 som vi tidigare visat), och vi uppdaterar därför inte Q matrisen. Agentens Q matris ser nu ut på följande sätt och en ny episod startar: Efter flertalet episoder kan vi få en Q matris som ser ut på följande sätt (notera att Q(1, 5) får ett högre värde trots att vi i exemplet räknade det till 100 två gånger. Detta är för att Q- värdena som används i del två av ekvationen för uträkning a Q(1, 5), alltså 0.8 * Max [ Q(5, 1), Q(5, 4), Q(5, 5) ] kommer att ändras med tiden och då påverka värdet för Q(1, 5) : Genom att dela alla tal som är <0 med det högsta värdet (= 500) kan vi normalisera matrisen, det vill säga göra om det till procentenheter: Ebba Algvere ebbal G43 Artificiell Intelligens 14

15 När Q matrisen kommit tillräckligt nära konvergens (eng. convergence), inlärningskurvan förändras ej, vet vi att agenten har lärt sig de mest optimala vägarna från ett starttillstånd till ett måltillstånd. Vi kan enkelt måla ut dessa vägar genom att följa de vägarna med högst värden. Skulle initialtillståndet vara 2, kommer agenten att välja handling 3. Från tillstånd 3 har både handling 1 och 4 samma Q värde = 80. Antingen väljs handling 1 eller 4. Från tillstånd 1 respektive 4 väljs handling 5 eftersom det har högst Q värde (= 100), jämfört med tillexempel handling 3 respektive 0 ( = 64). Med detta kan vi skapa en handlingssekvens som maximerar framtida belöningar och är därmed även optimal: eller Nackdelar En begränsning inom Q-learning är att metoden endast fungerar för små världar. Vid större världar krävs större matriser, vilket ökar komplexiteten och tidsåtgången för en löning anmärkningsvärt. Vidare måste en Q-learning agent utforska samma tillstånd-handlingspar ett flertal gånger, vilket inte heller verkar optimalt (Sutton & Barto, 1998). Fördelar Fördelen med Q-learning är att den inte behöver en modell av sin omgivning (Sutton & Barto, 1998), vilket återspelar hur verkligheten ofta ser ut. Vidare uppdateras Q-learning agentens kunskap om världen kontinuerligt under interaktion, detta till skillnad från andra metoder. Detta är en fördel då en episod kan vara lång och en uppdatering i slutet kan därför ta lång tid (Sutton & Barto, 1998). Ebba Algvere ebbal G43 Artificiell Intelligens 15

16 Mina Tankar Jag anser att kunskap inom förstärkt inlärning och Q-learning kommer att vara värdefullt både idag och i framtiden. Förstärkt inlärning används idag för utveckling inom robotteknik, navigationsteknik och spel (Nyman, 2017), där en förståelse för detta och även Q-learning är fördelaktigt. Den modell-fria metoden Q-learning, inlärning via interaktion, är lik det sätt människan lär sig och skapar en uppfattning om sin omgiving. Att kunna skapa en algoritm för inlärning som också efterliknar människans, anser jag är av stor betydelse för utveckling och förståelse för artificiell intelligens, särskillt när vi försöker skapa intelligenta system/agenter med männisligt beteende. Kan vi med hjälp av detta skapa intelligenta agenter som efterliknar människan, kanske vi tillochmed kan skapa agenter som genom sitt männskliga beteende prestrerar bättre än människan, tillexempel dataprogrammet AlphaGo (DeepMind, 2018). Vidare har detta fördjupningsarbete givit mig personligutdelning då jag finner en större förståelse och därmed även intresse för detta, samt andra, områden inom artificiell intelligens. Ebba Algvere ebbal G43 Artificiell Intelligens 16

17 Referenser Callan, R. (2003). Artificial Intelligence. New York: Palgrave MacMillan. DeepMind. (2018). AlphaGo. Hämtat från The story of AlphaGo so far: Eden, T., Knittel, A., & Uffelen, R. (2017). Reinforcement Learning. Hämtat från Kunz, F. (u.d.). An Introduction to Temporal Difference Learning. Department of computer science. TU Darmstadt. Luger, G. (2009). Artificial Intelligence Structures and Strategies for Complex Problem Solving (Vol. 6). Pearson. Nyman, J. (2017). Stories of a Software tester. Hämtat från Testing and Machine Learning, Part 2: Otterlo, M., & Wiering, M. (u.d.). Reinforcement Learing and Markov Decision Processes. University of Groningen och Katholike Univeriteit Leuven, Artificial Intelligence, Nederländerna och Belgien. Poole, D., & Mackworth, A. (2010). Artificial Intelligence Foundations of Computional Agents. Canada. Reinforcement Learning 3 - Q learning (2015). [Film]. Russell, S., & Norvig, P. (2014). Artificial Intelligence A Modern Approach (Vol. 3). England: Pearson. Silver, D. (Artist). (u.d.). Model-free Prediction. UCL Course on RL, London. Sutton, R., & Barto, A. (1998). Reinforcement Learning. England: The MIT Press. Tekonomo, K. (2005). Revoledu. Hämtat från Q-Learning Algorithm: Algorithm.htm Watkins, C. (1989). Learning from Delayed Rewards. Thesis, King's College. Ebba Algvere ebbal G43 Artificiell Intelligens 17

Förstärkande inlärning med fokus på Q-learning

Förstärkande inlärning med fokus på Q-learning LINKÖPINGS UNIVERSITET 12 januari 2017 Förstärkande inlärning med fokus på Q-learning Artificiell Intelligens, 729G43 Sammanfattning Förstärkande inlärning innebär att vi människor lär oss genom att interagera

Läs mer

med hjälp av Deep Reinforcement Learning

med hjälp av Deep Reinforcement Learning Agent som kan spela Atarispel bättre än människor med hjälp av Deep Reinforcement Learning Sofie Adolfsson, sofad117@student.liu.se Artificiell Intelligens Linköpings Universitet 2017-01-12 SofieAdolfsson

Läs mer

GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON

GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON 2018 GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON Innehåll Inledning & Bakgrund... 2 Förstärkt inlärning... 2 MDP... 2 Gridworld... 3 Nytta och policy... 4 Värdefunktion och Bellmanekvationer...

Läs mer

Självlärande Hare and Hounds spelare med Q-learning

Självlärande Hare and Hounds spelare med Q-learning Självlärande Hare and Hounds spelare med Q-learning Examensarbete inom datalogi - DD143X HARALD HARTWIG RINDÖGATAN 27, 11558 STOCKHOLM TEL.NR: 0737264340 MAX WESTERMARK

Läs mer

Självlärande Hare and Hounds-spelare med Q-learning. HARALD HARTWIG och MAX WESTERMARK

Självlärande Hare and Hounds-spelare med Q-learning. HARALD HARTWIG och MAX WESTERMARK Självlärande Hare and Hounds-spelare med Q-learning HARALD HARTWIG och MAX WESTERMARK Examensarbete Stockholm, Sverige 2011 Självlärande Hare and Hounds-spelare med Q-learning HARALD HARTWIG och MAX WESTERMARK

Läs mer

Reinforcement Learning med Q-learning LUDWIG HALVORSEN PROJEKT 729G43

Reinforcement Learning med Q-learning LUDWIG HALVORSEN PROJEKT 729G43 Reinforcement Learning med Q-learning LUDWIG HALVORSEN PROJEKT 729G43 0 Innehåll 1. Introduktion... 2 2.Teori och begrepp... 3 2.1 Kort historia lektion om varför ANN helt plötsligt blev stort... 3 2.2

Läs mer

Cake-cutting. att fördela resurser på ett rättvist sätt. Ebba Lindström

Cake-cutting. att fördela resurser på ett rättvist sätt. Ebba Lindström Cake-cutting att fördela resurser på ett rättvist sätt Ebba Lindström Innehållsförteckning Inledning 3 Utility Theory 3 Orderability 4 Transitivity 4 Continuity 4 Monotonicity 5 Decomposability 5 Cake-cutting

Läs mer

Artificiell intelligens

Artificiell intelligens 2013-08-13 Introduktion Artificiell intelligens Vad är AI? Olika mål Intelligenta agenter Områden inom AI Arne Jönsson HCS/IA Vad är AI? Intelligens: Förmågan till tänkande och analys (Svenska ORboken)

Läs mer

Självlärande brädspelare. EMRE BERGE ERGENEKON och ANTON JONSSON

Självlärande brädspelare. EMRE BERGE ERGENEKON och ANTON JONSSON Självlärande brädspelare EMRE BERGE ERGENEKON och ANTON JONSSON Examensarbete Stockholm, Sverige 2010 Självlärande brädspelare EMRE BERGE ERGENEKON och ANTON JONSSON Examensarbete i datalogi om 15 högskolepoäng

Läs mer

Personifierad Netflix

Personifierad Netflix Linköpings universitet Personifierad Netflix Lisa Rönnqvist 2016-08-24 Sammanfattning INNEHÅLLSFÖRTECKNING 1. Inledning... 1 1.1 Bakgrund... 1 1.2 Syfte... 2 2. Netflix... Fel! Bokmärket är inte definierat.

Läs mer

Antag att följande träd genereras i ett spelförande program om vi applicerar evalueringsfunktionen

Antag att följande träd genereras i ett spelförande program om vi applicerar evalueringsfunktionen 1. Komplexiteten hos en agent beror mycket på vilken omgivning den skall verka i. Vad innebär det att en omgivning är stokastisk, episodisk och dynamisk? Ge exempel på en omgivning som är stokastisk, episodisk

Läs mer

Fyra-i-rad med förstärkt inlärning

Fyra-i-rad med förstärkt inlärning Fyra-i-rad med förstärkt inlärning En implementation av Q-learning CHRISTOFFER JANSON och CARL LANDEFJORD Examensarbete Stockholm, Sverige 2011 Fyra-i-rad med förstärkt inlärning En implementation av Q-learning

Läs mer

Tentamenskod: Inga hjälpmedel är tillåtna

Tentamenskod: Inga hjälpmedel är tillåtna Intelligenta och lärande system 15 högskolepoäng Provmoment: Ladokkod: Tentamen ges för: Tentamen (TEN1) Artificiell intelligens (AI) 5hp 21IS1C Systemarkitekturutbildningen Tentamenskod: Tentamensdatum:

Läs mer

Handledare: Mikael Goldmann

Handledare: Mikael Goldmann 2012-02- 23 Jacob Rydh Robert Hedin Sudoku Solver Projektspecifikation Handledare: Mikael Goldmann Introduktion Vi ska studera och utforma olika algoritmer för att lösa Sudoku puzzel. Vi kommer testa olika

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?)

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?) Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?) 1.a November 2011 Innan vi börjar R.I.P. John McCarthy (1924 2011) Grundare av ämnet artificiell

Läs mer

Hantering av hazards i pipelines

Hantering av hazards i pipelines Datorarkitektur med operativsystem Hantering av hazards i pipelines Lisa Arvidsson IDA2 Inlämningsdatum: 2018-12-05 Abstract En processor som använder pipelining kan exekvera ett flertal instruktioner

Läs mer

Pathfinding med reinforcement learning i delvis observerbara miljöer

Pathfinding med reinforcement learning i delvis observerbara miljöer Pathfinding med reinforcement learning i delvis observerbara miljöer Anne Engström Joel Lidin Gustav Molander Olle Månsson Noa Onoszko Hugo Ölund Institutionen för Matematiska vetenskaper CHALMERS TEKNISKA

Läs mer

Artificiell Intelligens den nya superkraften

Artificiell Intelligens den nya superkraften Artificiell Intelligens den nya superkraften Socialchefsdagarna, 4 oktober 2018 #CGINext Artificiell Intelligens Förmågan hos mjukvara att agera självständigt på ett intelligent sätt tidigare bara associerat

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Självlärande Dots & Boxes-spelare

Självlärande Dots & Boxes-spelare Självlärande Dots & Boxes-spelare ANDREAS PETTERSSON Kandidatexamensarbete inom datalogi, grundnivå Kurs 143X Handledare: Johan Boye Examinator: Mads Dam andrepet@kth.se Vintrosagatan 5 124 73 Bandhagen

Läs mer

Belöningsbaserad inlärning. Reinforcement Learning. Inlärningssituationen Belöningens roll Förenklande antaganden Centrala begrepp

Belöningsbaserad inlärning. Reinforcement Learning. Inlärningssituationen Belöningens roll Förenklande antaganden Centrala begrepp Belöningsbserd Inlärning Reinforcement Lerning 1 2 3 4 1 2 3 4 Belöningsbserd inlärning Reinforcement Lerning Inlärning v ett beteende utn tillgång till fcit. En belöning ger informtion om hur br det går

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Collaborative Product Development:

Collaborative Product Development: Collaborative Product Development: a Purchasing Strategy for Small Industrialized House-building Companies Opponent: Erik Sandberg, LiU Institutionen för ekonomisk och industriell utveckling Vad är egentligen

Läs mer

Laboration 2. Artificiell Intelligens, Ht 2004 2004-10-19 Lärare: Christina Olsén Handledare: Therese Edvall Daniel Ölvebrink

Laboration 2. Artificiell Intelligens, Ht 2004 2004-10-19 Lärare: Christina Olsén Handledare: Therese Edvall Daniel Ölvebrink Artificiell Intelligens, Ht 2004 2004-10-19 Lärare: Christina Olsén Handledare: Therese Edvall Daniel Ölvebrink Laboration 2 Laboranter: Johan Bystedt (dit02lbt) Alexander Pettersson (dit02apn) Stefan

Läs mer

HKGBB0, Artificiell intelligens

HKGBB0, Artificiell intelligens HKGBB0, Artificiell intelligens Kortfattade lösningsförslag till tentan 3 november 2005 Arne Jönsson 1. Vad karaktäriserar dagens AI-forskning jämfört med den AI-forskning som bedrevs perioden 1960-1985.

Läs mer

MESI-Protokollet. Richard Elvhammar. Lund Universitet 4/12-16

MESI-Protokollet. Richard Elvhammar. Lund Universitet 4/12-16 MESI-Protokollet Richard Elvhammar Lund Universitet 4/12-16 Abstract För att ett system snabbt ska kunna hantera information så används, å sidan åt primärminnet och sekundärminnet, ett cacheminne. I modern

Läs mer

Tentamen del 2 SF1511, , kl , Numeriska metoder och grundläggande programmering

Tentamen del 2 SF1511, , kl , Numeriska metoder och grundläggande programmering KTH Matematik Tentamen del 2 SF1511, 2018-03-16, kl 8.00-11.00, Numeriska metoder och grundläggande programmering Del 2, Max 50p + bonuspoäng (max 4p). Rättas ast om del 1 är godkänd. Betygsgränser inkl

Läs mer

Föreläsning 5: Grafer Del 1

Föreläsning 5: Grafer Del 1 2D1458, Problemlösning och programmering under press Föreläsning 5: Grafer Del 1 Datum: 2006-10-02 Skribent(er): Henrik Sjögren, Patrik Glas Föreläsare: Gunnar Kreitz Den här föreläsningen var den första

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Föreläsning 5: Dynamisk programmering

Föreläsning 5: Dynamisk programmering Föreläsning 5: Dynamisk programmering Vi betraktar en typ av problem vi tidigare sett: Indata: En uppsättning intervall [s i,f i ] med vikt w i. Mål: Att hitta en uppsättning icke överlappande intervall

Läs mer

Q-LEARNING: ETT SÄTT ATT LÄRA AGENTER ATT SPELA FOTBOLL

Q-LEARNING: ETT SÄTT ATT LÄRA AGENTER ATT SPELA FOTBOLL Q-LEARNING: ETT SÄTT ATT LÄRA AGENTER ATT SPELA FOTBOLL Q-LEARNING: A WAY TO TEACH AGENTS TO PLAY FOOTBALL Examensarbete inom huvudområdet Datalogi Grundnivå 30 högskolepoäng Vårtermin 2013 Kalle Ekelund

Läs mer

Vinjetter TDDC91 Datastrukturer och algoritmer

Vinjetter TDDC91 Datastrukturer och algoritmer Vinjetter TDDC91 Datastrukturer och algoritmer 17 augusti 2015 2 Scenario 1 Man har inom Posten Logistik AB skrivit programvara för sortering av kundinformation och vill standardisera användningen av sorteringsalgoritmer.

Läs mer

Shakey s värld med HTNplanering

Shakey s värld med HTNplanering Shakey s värld med HTNplanering 2010-10-03 Artificiell Intelligens 2, 729G11 Maria Lindqvist Fördjupningsarbete, HT 2010 880913-0506 Linköpings Universitet marli314 2 Innehållsförteckning Inledning...

Läs mer

SEKVENSKRETSAR. Innehåll

SEKVENSKRETSAR. Innehåll SEKVENSKRETSAR Innehåll Synkrona sekvenskretsar Tillståndsdiagram / tillståndstabell Definition av Moore- och Mealy-maskiner Tillståndskodning Syntes av sekventiell logik Räknare SEKVENSKRETSAR EXEMPEL

Läs mer

Kursplan. AB1029 Introduktion till Professionell kommunikation - mer än bara samtal. 7,5 högskolepoäng, Grundnivå 1

Kursplan. AB1029 Introduktion till Professionell kommunikation - mer än bara samtal. 7,5 högskolepoäng, Grundnivå 1 Kursplan AB1029 Introduktion till Professionell kommunikation - mer än bara samtal 7,5 högskolepoäng, Grundnivå 1 Introduction to Professional Communication - more than just conversation 7.5 Higher Education

Läs mer

Civilingenjör Mjukvaruteknik Att designa en utbildning utifrån ACM CS Curriculum

Civilingenjör Mjukvaruteknik Att designa en utbildning utifrån ACM CS Curriculum Civilingenjör Mjukvaruteknik Att designa en utbildning utifrån ACM CS Curriculum Fredrik Heintz Institutionen för Datavetenskap Linköpings universitet 2 Mål med programmet Ge en gedigen grund i datavetenskap

Läs mer

Q-learning för fyra i rad. OLLE HASSEL och PETTER JANSE

Q-learning för fyra i rad. OLLE HASSEL och PETTER JANSE Q-learning för fyra i rad OLLE HASSEL och PETTER JANSE Examensarbete Stockholm, Sverige 2011 Q-learning för fyra i rad OLLE HASSEL och PETTER JANSE Examensarbete i datalogi om 15 högskolepoäng vid Programmet

Läs mer

Pipelining i Intel 80486

Pipelining i Intel 80486 Lunds Universitet Pipelining i Intel 80486 EITF60 Datorarkitekturer med operativsystem Martin Wiezell 2017-12-04 Abstract This paper gives a brief description of the instruction pipeline of the Intel 80486

Läs mer

Från ljusenergi till en kub som går att stå på Hur man får en dator att känna igen olika former i visuell information

Från ljusenergi till en kub som går att stå på Hur man får en dator att känna igen olika former i visuell information ARTIFICIELL INTELLIGENS II INSTITUTUINEN FÖR DATAVETENSKAP LINKÖPINGS UNIVERSITET Från ljusenergi till en kub som går att stå på Hur man får en dator att känna igen olika former i visuell information Anna

Läs mer

Fördjupningsuppgift 729G43 Linköpings Universitet alelo408. Genetisk börshandel. Att hitta mönster i börsmarknaden med genetiska algoritmer

Fördjupningsuppgift 729G43 Linköpings Universitet alelo408. Genetisk börshandel. Att hitta mönster i börsmarknaden med genetiska algoritmer Genetisk börshandel Att hitta mönster i börsmarknaden med genetiska algoritmer Alexander Löfstrand HT 2017 1. Inledning 1.1. Bakgrund Börsmarknaden är full av möjligheter att tjäna pengar, men även på

Läs mer

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?)

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?) Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?) 4e november 2014 Intelligens Vad är det? ett mänskligt egenskap Kan det jämföras? Kan det mätas?

Läs mer

Hierarchical Temporal Memory Maskininlärning

Hierarchical Temporal Memory Maskininlärning Hierarchical Temporal Memory Maskininlärning Innehåll Sammanfattning... 3 Inledning... 4 Vad är HTM?... 4 Hur fungerar HTM?... 4 Hierarchical... 4 Temporal... 5 Memory... 5 Hitta orsaker i världen... 5

Läs mer

Kursplan. MT1051 3D CAD Grundläggande. 7,5 högskolepoäng, Grundnivå 1. 3D-CAD Basic Course

Kursplan. MT1051 3D CAD Grundläggande. 7,5 högskolepoäng, Grundnivå 1. 3D-CAD Basic Course Kursplan MT1051 3D CAD Grundläggande 7,5 högskolepoäng, Grundnivå 1 3D-CAD Basic Course 7.5 Higher Education Credits *), First Cycle Level 1 Mål Studenten ska efter avslutad kurs ha inhämtat grunderna

Läs mer

Case-based resoning. och dess användning inom sjukvården. Linköpings universitet Artificiell intelligens II 729G11 HT 2011

Case-based resoning. och dess användning inom sjukvården. Linköpings universitet Artificiell intelligens II 729G11 HT 2011 Linköpings universitet Artificiell intelligens II HT 2011 Case-based resoning och dess användning inom sjukvården Sammanfattning Det här arbetet handlar om vad case-based resoning är, hur den funkar, vilka

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Diskreta Linjära System och Skiftregister

Diskreta Linjära System och Skiftregister Sammanfattning Föreläsning 13-14 - Digitalteknik I boken: avsnitt 7.1-7.3 (-) Diskreta Linjära System och Skiftregister Syftet med denna del är att förstå att tillståndsmaskiner som endast består av linjära

Läs mer

Fuzzy Logic: Den oskarpa skarpheten

Fuzzy Logic: Den oskarpa skarpheten Fuzzy Logic: Den oskarpa skarpheten Av: 1 Innehåll Inledning... 3 Vad är Fuzzy Logic?... 4 Fuzzy sets... 4 Medlemsskapsfunktion... 5 Operatorer... 7 Union... 7 Snitt... 8 Komplement... 8 Exempel med de

Läs mer

Testning som beslutsstöd

Testning som beslutsstöd Testning som beslutsstöd Vilken typ av information kan testning ge? Vilken typ av testning kan ge rätt information i rätt tid? Hur kan testning hjälpa din organisation med beslutsstöd? Hur kan produktiviteten

Läs mer

Vad behövs för att skapa en tillståndsrymd?

Vad behövs för att skapa en tillståndsrymd? OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Artificiell intelligens En agent som spelar Black Jack Andreas Perjons [andpe813]

Artificiell intelligens En agent som spelar Black Jack Andreas Perjons [andpe813] 1 Artificiell intelligens En agent som spelar Black Jack Andreas Perjons [andpe813] Linköpings Universitet 2019 2 Innehåll Introduktion...3 Metod..4 Programmets komponenter.4 Resultat...5 Diskussion...7

Läs mer

Tentamen i Beräkningsvetenskap II, 5.0 hp, Del A

Tentamen i Beräkningsvetenskap II, 5.0 hp, Del A Uppsala universitet Institutionen för informationsteknologi Beräkningsvetenskap Tentamen i Beräkningsvetenskap II, 5.0 hp, 2016-03-16 Del A 1. (a) Beräkna lösningen Ù vid Ø = 03 till differentialekvationen

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

AI-Tekniker. För domänspecifika problemområden i StarCraft 2. Mattias Tiger Fredrik Präntare

AI-Tekniker. För domänspecifika problemområden i StarCraft 2. Mattias Tiger Fredrik Präntare AI-Tekniker För domänspecifika problemområden i StarCraft 2 Mattias Tiger Fredrik Präntare Introduktion och motivering Ni ska inför er individuella uppgift definiera ett problem och välja ut en eller flera

Läs mer

genetiska algoritmer

genetiska algoritmer Introduktion till genetiska algoritmer CT3620 Vetenskapsmetodik 2005-10-21 Ylva egerfeldt ydt01001@student.mdh.se SAMMANFATTNING enna rapport är tänkt som en introduktion till genetiska algoritmer. Först

Läs mer

Registerforskning Oktober 2018, Stockholm City Conference Centre. Möjligheter med Artificiell Intelligens inom registerforskningen

Registerforskning Oktober 2018, Stockholm City Conference Centre. Möjligheter med Artificiell Intelligens inom registerforskningen Registerforskning 2018 17 Oktober 2018, Stockholm City Conference Centre Möjligheter med Artificiell Intelligens inom registerforskningen Peter Funk Mälardalens Högskola Vem är Peter Funk? Artificiell

Läs mer

Fixpunktsiteration. Kapitel Fixpunktsekvation. 1. f(x) = x = g(x).

Fixpunktsiteration. Kapitel Fixpunktsekvation. 1. f(x) = x = g(x). Kapitel 5 Fixpunktsiteration 5.1 Fixpunktsekvation En algebraisk ekvation kan skrivas på följande två ekvivalenta sätt (vilket innebär att lösningarna är desamma). 1. f(x) = 0. En lösning x kallas en rot

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

Uppgift 1. Minimeringsproblemet löses med en Monte Carlo algoritm:

Uppgift 1. Minimeringsproblemet löses med en Monte Carlo algoritm: Uppgift 1 Minimeringsproblemet löses med en Monte Carlo algoritm: 1) initiera elementen i vektorn s slummässigt med +/-1 2) räkna ut värdefunktionen (ekvationen given i uppgiften) 3) starta iteration 4)

Läs mer

AI utmaningar inom kvalitetssäkring. Henrik Emilsson Teststrateg, Nordic Medtest AB

AI utmaningar inom kvalitetssäkring. Henrik Emilsson Teststrateg, Nordic Medtest AB AI utmaningar inom kvalitetssäkring Henrik Emilsson Teststrateg, Nordic Medtest AB Först lite om Artificiell intelligens General AI vs. Narrow AI Maskininlärning Supervised Learning Unsupervised Learning

Läs mer

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2 Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2 Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok,

Läs mer

Monte Carlo-metoder. Bild från Monte Carlo

Monte Carlo-metoder. Bild från Monte Carlo Monte Carlo-metoder 0 Målen för föreläsningen På datorn Bild från Monte Carlo http://en.wikipedia.org/wiki/file:real_monte_carlo_casino.jpg 1 Begrepp En stokastisk metod ger olika resultat vid upprepning

Läs mer

Kognitiv modellering inom MDI

Kognitiv modellering inom MDI Kognitiv modellering inom MDI mekanismer för att kunna förutspå användarens uppträdande härstammar från experimentell psykologi, AI och lingvistik 1 mekanismer för att kunna förutspå användarens uppträdande

Läs mer

Att dela en hemlighet

Att dela en hemlighet Att dela en hemlighet Olle Alvin, NA3d 19 maj 014 Gymnasiearbete Spyken Handledare: Roger Bengtsson Abstract This report will investigate different methods for sharing secret information, for example bank

Läs mer

Exempel: Förel Rekursion III Nr 14. Uno Holmer, Chalmers,

Exempel: Förel Rekursion III Nr 14. Uno Holmer, Chalmers, Exempel: Kappsäcksproblemet Backtracking Dynamisk programmering Föreläsning (Weiss kap..-) Kan man ur en grupp föremål F,,F N med vikterna V,,V N välja ut en delgrupp som väger exakt M kilo? Exempel: föremål

Läs mer

1 Minkostnadsflödesproblem i nätverk

1 Minkostnadsflödesproblem i nätverk Krister Svanberg, april 2012 1 Minkostnadsflödesproblem i nätverk Ett nätverk består av en given mängd noder numrerade från 1 till m (där m är antalet noder) samt en given mängd riktade bågar mellan vissa

Läs mer

LINKÖPINGS UNIVERSITET. Fuzzy Logic. Johan Brage 9/16/2012

LINKÖPINGS UNIVERSITET. Fuzzy Logic. Johan Brage 9/16/2012 LINKÖPINGS UNIVERSITET Fuzzy Logic Johan Brage 9/16/2012 Innehållsförteckning 1. Inledning... 1 2. Fuzzy Logic... 2 3. Crisp Sets... 3 4. Fuzzy Sets... 4 4.1 Operatorer... 5 4.2 IF-THEN... 7 4.3 Hedges...

Läs mer

Kursplan. IK1004 Java - Grafiska användargränssnitt med Swing. 7,5 högskolepoäng, Grundnivå 1. Java - GUI Programming with Swing - Undergraduate Level

Kursplan. IK1004 Java - Grafiska användargränssnitt med Swing. 7,5 högskolepoäng, Grundnivå 1. Java - GUI Programming with Swing - Undergraduate Level Kursplan IK1004 Java - Grafiska användargränssnitt med Swing 7,5 högskolepoäng, Grundnivå 1 Java - GUI Programming with Swing - Undergraduate Level 7.5 Higher Education Credits *), First Cycle Level 1

Läs mer

Neurala nätverk och språkigenkänning. Henrik Linnarsson. Linköping University

Neurala nätverk och språkigenkänning. Henrik Linnarsson. Linköping University Neurala nätverk och språk Henli807!1 Neurala nätverk och språkigenkänning Henrik Linnarsson Linköping University Neurala nätverk och språk Henli807!2 RNN, LSTM och språkigenkänning Inledning Idag är språkigenkänning

Läs mer

Unit testing methodology

Unit testing methodology Department of Computer Science Per Hurtig Stefan Lindberg & Fredrik Strandberg Unit testing methodology Opposition Report, C/D-level 2005:xx 1 Övergripande utvärdering Helhetsintrycket av uppsatsen är

Läs mer

Inledande programmering med C# (1DV402) Tärningarna ska kastas

Inledande programmering med C# (1DV402) Tärningarna ska kastas Tärningarna ska kastas Upphovsrätt för detta verk Detta verk är framtaget i anslutning till kursen Inledande programmering med C# vid Linnéuniversitetet. Du får använda detta verk så här: Allt innehåll

Läs mer

Fortbildningsavdelningen för skolans internationalisering. Dossier 3. European Language Portfolio 16+ Europeisk språkportfolio 16+ English version

Fortbildningsavdelningen för skolans internationalisering. Dossier 3. European Language Portfolio 16+ Europeisk språkportfolio 16+ English version Fortbildningsavdelningen för skolans internationalisering Dossier 3 English version European Language Portfolio Europeisk språkportfolio Council of Europe The Council of Europe was established in 1949

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?)

Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?) Artificiell intelligens, eller Kommer din dator att bli klokare än dig? (eller kanske är den redan det?) Building Watson:! http://www.youtube.com/watch?v=3g2h3dz8rnc!! 29e oktober 2013 Intelligens Vad

Läs mer

Laboration 2 -litteraturstudie i Mechanism design

Laboration 2 -litteraturstudie i Mechanism design Laboration 2 -litteraturstudie i Mechanism design Kurs: Kursansvarig: Handledare: Artificiell Intelligens med inriktning mot kognition och design B, 5p ht 2004 Christina Olsén Therese Edvall Daniel Ölvebrink

Läs mer

Implementation av Q-learning för fyra-i-rad. E DVIN EKBLAD och OSKAR WERKELIN AHLIN

Implementation av Q-learning för fyra-i-rad. E DVIN EKBLAD och OSKAR WERKELIN AHLIN Implementation av Q-learning för fyra-i-rad E DVIN EKBLAD och OSKAR WERKELIN AHLIN Examensarbete Stockholm, Sverige 2010 Implementation av Q-learning för fyra-i-rad E DVIN EKBLAD och OSKAR WERKELIN AHLIN

Läs mer

Problem: FIL File Paths

Problem: FIL File Paths Problem: FIL File Paths swedish BOI 2015, dag 2. Tillgängligt minne: 256 MB. 1.05.2015 Byteasar tycker om att leva farligt. Han springer med saxar, skickar in lösningar på tävlingsproblem utan att testa

Läs mer

Tentamen, EDA501/EDAA20 Programmering M MD W BK L

Tentamen, EDA501/EDAA20 Programmering M MD W BK L LUNDS TEKNISKA HÖGSKOLA 1(6) Institutionen för datavetenskap Tentamen, EDA501/EDAA20 Programmering M MD W BK L 2017 05 31, 8.00 13.00 Anvisningar: Preliminärt ger uppgifterna 9 + 12 + 10 + 9 = 40 poäng.

Läs mer

Datateknik B, Tillämpad datavetenskap, 30 högskolepoäng Computer Science, Applied Computer Science, Intermediate Course, 30 Credits

Datateknik B, Tillämpad datavetenskap, 30 högskolepoäng Computer Science, Applied Computer Science, Intermediate Course, 30 Credits 1(5) Kursplan Institutionen för naturvetenskap och teknik Datateknik B, Tillämpad datavetenskap, 30 högskolepoäng Computer Science, Applied Computer Science, Intermediate Course, 30 Credits Kurskod: DT2022

Läs mer

Efterlysning! Kognitiv design 1. Mitt mål för er med idag. Idag. Mål. Vad exakt är problemet?

Efterlysning! Kognitiv design 1. Mitt mål för er med idag. Idag. Mål. Vad exakt är problemet? Efterlysning! Kognitiv design 1 Hur man gör en användare glad Kursrepresentanter? Maila! Webbaserat system för gruppindelning. Idag Inledande exempel Vad är användbarhet? Hur gör användaren? Normans sjustegsmodell

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad för att man skall

Läs mer

Deliberate Practice på en kurs i kvantmekanik. Emma Wikberg (& Stefano Bonetti) Fysikum, SU

Deliberate Practice på en kurs i kvantmekanik. Emma Wikberg (& Stefano Bonetti) Fysikum, SU Deliberate Practice på en kurs i kvantmekanik Emma Wikberg (& Stefano Bonetti) Fysikum, SU Generella principer Aktiv träning + feedback = effektiv inlärning Utnyttja klassrumstiden till problemlösning,

Läs mer

Kursplan. FÖ3032 Redovisning och styrning av internationellt verksamma företag. 15 högskolepoäng, Avancerad nivå 1

Kursplan. FÖ3032 Redovisning och styrning av internationellt verksamma företag. 15 högskolepoäng, Avancerad nivå 1 Kursplan FÖ3032 Redovisning och styrning av internationellt verksamma företag 15 högskolepoäng, Avancerad nivå 1 Accounting and Control in Global Enterprises 15 Higher Education Credits *), Second Cycle

Läs mer

SAST Q1. Som att börja arbeta på ett nytt jobb. Testautomatisera med Modell-baserad testning

SAST Q1. Som att börja arbeta på ett nytt jobb. Testautomatisera med Modell-baserad testning SAST Q1 Som att börja arbeta på ett nytt jobb Testautomatisera med Modell-baserad testning Christina Nordström Kristian Karl Christina Nordström Test sedan 1996 Aldrig testautomatiserat Enhetschef Testenheten

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping Fuzzy Logic När oskarpa definitioner blir kristallklara Linköpings Universitet Linköping Sammanfattning I denna fördjupningsuppgift har jag fokuserat på Fuzzy Logic och försökt att beskriva det på ett

Läs mer

Artificiell Intelligens Tekniker: Styrkor och Fallgropar

Artificiell Intelligens Tekniker: Styrkor och Fallgropar Artificiell Intelligens Tekniker: Styrkor och Fallgropar Docent Anne Håkansson Programvaruteknik och Datorsystem, KTH Epost: annehak@kth.se 2017 Anne Håkansson All rights reserved. Forskning i AI 1993-

Läs mer

openbim Stockholm 22 april 2013 Kraven på BIM är här

openbim Stockholm 22 april 2013 Kraven på BIM är här openbim Stockholm 22 april 2013 Kraven på BIM är här Vi fick några frågor Kan gemensamma, formella och neutrala krav formuleras? Hur kommer sådana krav att påverka och befästa arbetssätt, processer, informations-

Läs mer

Elektronisk patientjournal

Elektronisk patientjournal Elektronisk patientjournal Hippokrates Typer Tidsorienterad, problemorienterad samt källorienterad Varför? Stödja vården, legala skäl, forskning, utbildning. Data måste vara otvetydiga, strukturerade,

Läs mer

Lunds Tekniska Högskola Datorarkitektur med operativsystem EITF60. Superscalar vs VLIW. Cornelia Kloth IDA2. Inlämningsdatum:

Lunds Tekniska Högskola Datorarkitektur med operativsystem EITF60. Superscalar vs VLIW. Cornelia Kloth IDA2. Inlämningsdatum: Lunds Tekniska Högskola Datorarkitektur med operativsystem EITF60 Superscalar vs VLIW Cornelia Kloth IDA2 Inlämningsdatum: 2018-12-05 Abstract Rapporten handlar om två tekniker inom multiple issue processorer

Läs mer

Understanding Innovation as an Approach to Increasing Customer Value in the Context of the Public Sector

Understanding Innovation as an Approach to Increasing Customer Value in the Context of the Public Sector Thesis for the degree of Licentiate of Philosophy, Östersund 2014 Understanding Innovation as an Approach to Increasing Customer Value in the Context of the Public Sector Klas Palm Supervisors: Håkan Wiklund

Läs mer

LINKÖPINGS UNIVERSITET. Rekommendationssystem

LINKÖPINGS UNIVERSITET. Rekommendationssystem LINKÖPINGS UNIVERSITET Rekommendationssystem, julho969 900728-5969 729G11 Artificiell Intelligens II Linköpings universitet HT 2010 Innehållsförteckning Introduktion Vad är ett rekommendationssystem?...

Läs mer

7. Beslutsförslag: Fastställande av kursplaner för utbildning på forskarnivå

7. Beslutsförslag: Fastställande av kursplaner för utbildning på forskarnivå DEPARTMENT OF PHILOSOPHY, LINGUISTICS AND THEORY OF SCIENCE 7. Beslutsförslag: Fastställande av kursplaner för utbildning på forskarnivå Innehåll 1. Statistiska metoder/statistical Methods in NLP, 7.5

Läs mer

1. En oreglerad marknad involverar frihet. 2. Frihet är ett fundamentalt värde. 3. Därav att en fri marknad är moraliskt nödvändigt 1

1. En oreglerad marknad involverar frihet. 2. Frihet är ett fundamentalt värde. 3. Därav att en fri marknad är moraliskt nödvändigt 1 Linköpings Universitet Gabriella Degerfält Hygrell Politisk Teori 2 930427-7982 733G36 Frihet är ett stort och komplext begrepp. Vad är frihet? Hur förenligt är libertarianismens frihetsdefinition med

Läs mer

Stina Nyman 2012-09-16

Stina Nyman 2012-09-16 LINKOPINGS UNIVERSITET, IDA SmartKom Hur systemet fungerar Stina Nyman 2012-09-16 stiny786 Artificiell intelligens II Sammanfattning Detta projekt kommer handla om SmartKom som är ett multimodalt dialogsystem

Läs mer

tidskrift för politisk filosofi nr årgång 9

tidskrift för politisk filosofi nr årgång 9 tidskrift för politisk filosofi nr 1 2005 årgång 9 Bokförlaget thales om den personliga egalitarismen om den personliga egalitarismen replik till rabinowicz Jonas Gren, Niklas Juth och Ragnar Francén i

Läs mer

Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003

Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003 2003-12-02 Institutionen för datavetenskap Arne Jönsson/* Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003 1. Förklara de olika egenskaper en omgivning kan ha och ge exempel på en omgivning

Läs mer

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0 Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens

Läs mer

Patientutbildning om diabetes En systematisk litteraturstudie

Patientutbildning om diabetes En systematisk litteraturstudie Institutionen Hälsa och samhälle Sjuksköterskeprogrammet 120 p Vårdvetenskap C 51-60 p Ht 2005 Patientutbildning om diabetes En systematisk litteraturstudie Författare: Jenny Berglund Laila Janérs Handledare:

Läs mer

Föreläsning 9: NP-fullständighet

Föreläsning 9: NP-fullständighet Föreläsning 9: NP-fullständighet Olika typer av problem: 1. Beslutsproblem: A(x) =Ja. 2. Optimeringsproblem: A(x) =m Vanligen max/min. 3. Konstruktionsproblem: A(x) =En struktur. Vanligen lösningen till

Läs mer