Belöningsbaserad inlärning. Reinforcement Learning. Inlärningssituationen Belöningens roll Förenklande antaganden Centrala begrepp

Relevanta dokument
Tillämpning - Ray Tracing och Bézier Ytor. TANA09 Föreläsning 3. Icke-Linjära Ekvationer. Ekvationslösning. Tillämpning.

Diskreta stokastiska variabler

Kylfrysguide [Namn] Elektroskandia Sverige AB [år-månad-dag]

SF1625 Envariabelanalys

TATA42: Föreläsning 4 Generaliserade integraler

TATA42: Föreläsning 4 Generaliserade integraler

SF1625 Envariabelanalys

Kontinuerliga variabler

SPEL OM PENGAR FÖR - EN FRÅGA FÖR SKOLAN? VERKTYG, ÖVNINGAR OCH KUNSKAPSBANK FÖR ARBETE MED SPEL OM PENGAR I SKOLAN

Läsanvisningar för MATEMATIK I, ANALYS

Grundläggande matematisk statistik

Monteringsanvisning. Bakåtvänd montering. Godkänd höjd cm. Maximal vikt 18 kg. UN regulation no. R129 i-size. Ålder 6 mån - 4 år. 1 a.

Guide - Hur du gör din ansökan

Reliability analysis in engineering applications

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

LINJÄR ALGEBRA II LEKTION 1

Generaliserade integraler

Finita automater, reguljära uttryck och prefixträd. Upplägg. Finita automater. Finita automater. Olika finita automater.

4 Signaler och system i frekvensplanet Övningar

1 e x2. lim. x ln(1 + x) lim. 1 (1 x 2 + O(x 4 )) = lim. x 0 x 2 /2 + O(x 3 ) x 2 + O(x 4 ) = lim. 1 + O(x 2 ) = lim = x = arctan x 1

MATEMATISK STATISTIK I FORTSÄTTNINGSKURS. Tentamen måndagen den 17 oktober 2016 kl 8 12

Integraler. 1 Inledning. 2 Beräkningsmetoder. CTH/GU LABORATION 2 MVE /2013 Matematiska vetenskaper

Gör slag i saken! Frank Bach

Induktion LCB 2000/2001

GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON

INNEHALL t.3

Internetförsäljning av graviditetstester

Integralen. f(x) dx exakt utan man får nöja sig med att beräkna

Matris invers, invers linjär transformation.

Integraler och statistik

Byt till den tjocka linsen och bestäm dess brännvidd.

> VD har ordet: Frösunda satsar på anhörigfrågorna > Frösunda främjar kvinnors företagande i Indien > 5 frågor: Sofia Hägg-Jegebäck

12 frågor om patent RESEARCHA-ÖVNING

Månadsrapport september Individ- och familjeomsorg

Uppgiftssamling 5B1493, lektionerna 1 6. Lektion 1

MEDIA PRO. Introduktion BYGG DIN EGEN PC

Frami transportbult 2,5kN

Rationella uttryck. Förlängning och förkortning

temaunga.se EUROPEISKA UNIONEN Europeiska socialfonden

Sidor i boken

Exponentiella förändringar

x = x = x = x=3 x=5 x=6 42 = 10x x + 10 = 15 x = = 20 x = 65 x + 36 = 46

14 Spelteori Två-personers nollsummespel och konstantsummespel: sadelpunkt

Sammanfattning, Dag 9

Uppsala Universitet Matematiska Institutionen T Erlandsson

Programmeringsguide ipfg 1.6

Lösningar basuppgifter 6.1 Partikelns kinetik. Historik, grundläggande lagar och begrepp

Löpsedel: Integraler. Block 4: Integraler. Lärobok. Exempel (jfr lab) Exempel (jfr lab) Integrering i Matlab

Volum av rotationskroppar. Båglängd, rotationsytor. Adams 7.1, 7.2, 7.3

Vilken rät linje passar bäst till givna datapunkter?

Enhetsvektorer. Basvektorer i två dimensioner: Basvektorer i tre dimensioner: = i. Enhetsvektor i riktningen v: v v. Definition: Vektorprodukt

PASS 1. RÄKNEOPERATIONER MED DECIMALTAL OCH BRÅKTAL


Kvalificeringstävling den 2 oktober 2007

Från fotbollsplan till affärsplan. Berättelsen om Newbody

Listor = generaliserade strängar. Introduktion till programmering SMD180. Föreläsning 8: Listor. Fler listor. Listindexering.

Lamellgardin. Nordic Light Luxor INSTALLATION - MANÖVRERING - RENGÖRING

Sfärisk trigonometri

Tentamen i Databasteknik

UPPTÄCK OCH DEFINIERA SAMBANDET MELLAN TVÅ OMRÅDEN SOM DELAS AV GRAFEN TILL EN POTENSFUNKTION

Mat Grundkurs i matematik 1, del II

Slutrapport Jordbruksverket Dnr /10 Kontroll av sniglar i ekologisk produktion av grönsaker och bär

TentamensKod:

Sammanställning av centrala resultat från Nationella trygghetsundersökningen 2018

GOODTIMES. teknikens framkant. Prisbelönat samarbetsprojekt i ONE.2014

Campingpolicy för Tanums kommun

============================================================ V1. Intervallet [a,b] är ändligt, dvs gränserna a, b är reella tal och INTE ±.

Skogstorp i framtiden

2011 Mercury Marine *8M * 90-8M

SERIER OCH GENERALISERADE INTEGRALER

GOLV. Norgips Golvskivor används som underlag för golv av trä, vinyl, mattor och andra beläggningar. Här de tre viktigaste konstruktionerna

MERCEDES BENZ BILGRUPPEN I LUND SVENSKT DERBY LÖRDAG 5 JULI 2014 KL

Ett förspel till Z -transformen Fibonaccitalen

Tentamen Programmeringsteknik II Skrivtid: Skriv läsligt! Använd inte rödpenna! Skriv bara på framsidan av varje papper.

Nystartsjobb /särskilt nystartsjobb

Nr 3/4 20 PYSSEL! LÄSARFOTON. Så hjälper du igelkotten

Lösningar till tentamen i EF för π3 och F3

9. Bestämda integraler

Nystartsjobb /särskilt nystartsjobb

Denna föreläsning. DN1212 Numeriska metoder och grundläggande programmering FN Linjära ekvationssystem. Repetition av FN3 (GNM kap 4.

SLING MONTERINGS- OCH BRUKSANVISNING

Nystartsjobb /särskilt nystartsjobb

24 Integraler av masstyp

FLEXI räcke & FLEXI GC-räcke Monteringsanvisning

Så här gör du? Innehåll

Repetitionsuppgifter i matematik

EasyMP Multi PC Projection-bruksanvisning

DeLaval mjölkningsenhet MP400 Instruktionsbok

0 a. a -Â n 2 p n. beskriver på sedvanligt sätt en a-periodisk utvidgning av f. Nedanför ritas en partialsumma av Fourierserien.

Operativsystemets uppgifter. Föreläsning 6 Operativsystem. Skydd, allmänt. Operativsystem, historik

Skriv tydligt! Uppgift 1 (5p)

Förstärkande inlärning med fokus på Q-learning

Matematisk statistik för B, K, N, BME och Kemister. Matematisk statistik slumpens matematik. Exempel: Utsläpp från Källby reningsverk.

FÖRSÄTTSBLAD TILL TENTAMEN. ELLER (fyll bara i om du saknar tentamenskod): Datum: 21 december Bordsnummer:

Mängder i R n. Funktioner från R n till R p

Målet för dagen var att ge företagen möjlighet att ta del av tjejerna unika kompetens och insikter.

Gauss och Stokes analoga satser och fältsingulariteter: källor och virvlar Mats Persson

Laborationstillfälle 3 Numerisk integration

IE1204 Digital Design

Varför är. kvinnor. mer sjukskrivna. änmän. -just här? Reflektioner och ett fortsatt lärande

Transkript:

Belöningsbserd Inlärning Reinforcement Lerning 1 2 3 4 1 2 3 4 Belöningsbserd inlärning Reinforcement Lerning Inlärning v ett beteende utn tillgång till fcit. En belöning ger informtion om hur br det går Belöningen kommer inte smtidigt som mn gör något br Temporl credit ssignment Belöningen nger inte vd som vr br Structurl credit ssignment Modell för inlärningssitutionen En gent intergerr med sin omgivning Agenten utför hndlingr Hndlingrn påverkr omgivningens tillstånd Agenten observerr omgivningens tillstånd Agenten får även en belöning från omgivningen Agent Hndling Tillstånd Belöning s r Omgivning Uppgiften för genten Hitt ett beteende som mximerr den totl belöningen. Hur lång frmtid sk vi t hänsyn till? Begränsd tidshorisont [ h mx r t t= Oändlig tidshorisont [ mx γ t r t t= Kräver nedskrivning v frmtid belöningr ( < γ < 1)

Belöningsfunktionen Diskret tid Belöningsfunktionen styr vilken uppgift som sk löss Spel (Schck, Bckgmmon) Belöning br i slutet: +1 vid vinst, 1 vid förlust Undvik misstg (cykl, rml,...) Belöning 1 i slutet (när mn misslycks) Hitt kort/snbb/billig väg till målet Belöning 1 hel tiden Ändligt ntl hndlingr i Ändligt ntl tillstånd s i i 1, 2, 3,..., n s i s 1, s 2, s 3,..., s m Omgivningen är en konstnt MDP (Mrkov Decision Process) Belöningen och näst tillstånd beror br på s, och slumpen Deterministisk eller icke-deterministisk omgivning Agentens intern representtion Klssiskt modellproblem: Grid World Policy Den hndling genten väljer i vrje tillstånd Vrje tillstånd representers v en plts i ett rutnät Agenten hndlr genom tt gå till ndr rutor π(s) G Värdefunktionen Förväntd frmtid belöning från s när mn följer policy π V π (s) R G Belöning: 1 i vrje steg tills mn når något v måltillstånden (G) Trivil lbyrint Värdet v ett tillstånd beror v ktuell policy. 1 2 3 1 2 3 2 2 3 2 1 3 2 1 V vid optiml policy 14 2 22 14 18 22 2 2 22 18 14 22 2 14 V vid slumpmässig policy 1 2 3 4

Modell v omgivningen Vr hmnr vi? Hur mycket belöning får vi? δ(s, ) s r(s, ) R Värdet v olik tillstånd hänger ihop : Kn mn lös? V π (s) = r(s, π(s)) + γ V π (δ(s, π(s))) Direkt lösning (linjärt ekvtionssystem) Itertivt (vlue itertion) V π k+1 π (s) r(s, π(s)) + γ V (δ(s, π(s))) k V π (s) = r(s, π(s)) + γ V π (δ(s, π(s))) Hur får mn frm en optiml policy π? Lätt om mn visste den optiml värdefunktionen V : π (s) = rgmx (r(s, ) + γ V (δ(s, ))) Optiml vrinten v Svår tt lös Policy itertion: V (s) = mx (r(s, ) + γ V (δ(s, ))) Iterer policy och värdeberäkningrn växelvis 1 2 3 4 Temporl Difference Vnligen är r(s, ) och δ(s, ) inte känd v genten V π måste sktts genom erfrenhet Monte-Crlo tekniken Strt från slumpmässig s Följ π, lgr belöningr och s t När mn nått målet, uppdter V π (s)-skttningen för ll besökt tillstånd med den frmtid belöning mn verkligen fick Mycket långsm konvergens Idén bkom Temporl Difference: Utnyttj tt finns två skttningr för värdet v ett tillstånd: före och efter Vd mn tror innn mn hndlt V π (s t ) Vd mn tror efter mn hndlt r t+1 + γ V π (s t+1 )

Viktig observtion: Den ndr skttningen är bättre! Uppdter skttningen v värdet i riktning mot den bättre V π (s t ) V π (s t ) + η [r t+1 + γ V π (s t+1 ) V π (s t ) Mått på överrskningen / besvikelsen Lär sig betydligt snbbre än Monte-Crlo tekniken Problem: Även om mn hr skttt V br kn mn inte räkn ut π eftersom genten inte känner δ och r! Trick: Sktt Q(s, ) iställer för V (s) Q(s, ): Förväntd totl belöning när mn gör från s. π(s) = rgmx Q(s, ) V (s) = mx Q (s, ) Hur kn vi lär oss Q? Även Q-funktionen kn lärs med [ Q(s, ) Q(s, ) + η r + γ mx Q(s, ) Q(s, ) s är näst tillstånd. Litet problem: mx-opertionen kräver tt mn söker igenom ll tänkbr hndlingr i näst steg. SARSA-lerning Nästn smm som Q-lerning, men mn låter ktuell policy bestämm : Q(s, ) Q(s, ) + η [ r + γq(s, ) Q(s, ) Hr fått sitt nmn v tt erfrenhets-tuplern hr formen < s,, r, s, > 1 2 3 4 Vd gör mn när... Omgivningen är inte fullt observerbr Tillstånden är lltför mång Tillstånden är inte diskret Agenten hndlr i kontinuerlig tid

Explortion Exploittion dilemmt Om mn följer en policy bserd på ktuell skttning v Q konvergerr Q inte säkert mot Q Enkel lösning: Använd en policy som hr viss snnolikhet tt gör fel ɛ-greedy Gör iblnd (med snnolikheten ɛ) en slumpmässig hndling istället för den som verkr bäst (girig) Softmx Vikt snnolikheten tt gör olik hndlingr med hur br de verkr Ytterligre uppsnbbning Idé: TD-uppdteringrn kn utnyttjs till tt förbättr skttningen även v tillstånd där vi vrit tidigre. s, : Q(s, ) Q(s, ) + η [r t+1 + γq(s t+1, t+1 ) Q(s t, t ) e e är ett kvrdröjnde spår (eligibility trce) som beskriver hur länge sedn mn vr i s och gjorde. Klls oft TD(lmbd) där λ är tidskonstnten för vklingningen v spåret