Belöningsbaserad inlärning. Reinforcement Learning. Inlärningssituationen Belöningens roll Förenklande antaganden Centrala begrepp

Belöningsbserd Inlärning Reinforcement Lerning 1 2 3 4 1 2 3 4 Belöningsbserd inlärning Reinforcement Lerning Inlärning v ett beteende utn tillgång till fcit. En belöning ger informtion om hur br det går Belöningen kommer inte smtidigt som mn gör något br Temporl credit ssignment Belöningen nger inte vd som vr br Structurl credit ssignment Modell för inlärningssitutionen En gent intergerr med sin omgivning Agenten utför hndlingr Hndlingrn påverkr omgivningens tillstånd Agenten observerr omgivningens tillstånd Agenten får även en belöning från omgivningen Agent Hndling Tillstånd Belöning s r Omgivning Uppgiften för genten Hitt ett beteende som mximerr den totl belöningen. Hur lång frmtid sk vi t hänsyn till? Begränsd tidshorisont [ h mx r t t= Oändlig tidshorisont [ mx γ t r t t= Kräver nedskrivning v frmtid belöningr ( < γ < 1)

Belöningsfunktionen Diskret tid Belöningsfunktionen styr vilken uppgift som sk löss Spel (Schck, Bckgmmon) Belöning br i slutet: +1 vid vinst, 1 vid förlust Undvik misstg (cykl, rml,...) Belöning 1 i slutet (när mn misslycks) Hitt kort/snbb/billig väg till målet Belöning 1 hel tiden Ändligt ntl hndlingr i Ändligt ntl tillstånd s i i 1, 2, 3,..., n s i s 1, s 2, s 3,..., s m Omgivningen är en konstnt MDP (Mrkov Decision Process) Belöningen och näst tillstånd beror br på s, och slumpen Deterministisk eller icke-deterministisk omgivning Agentens intern representtion Klssiskt modellproblem: Grid World Policy Den hndling genten väljer i vrje tillstånd Vrje tillstånd representers v en plts i ett rutnät Agenten hndlr genom tt gå till ndr rutor π(s) G Värdefunktionen Förväntd frmtid belöning från s när mn följer policy π V π (s) R G Belöning: 1 i vrje steg tills mn når något v måltillstånden (G) Trivil lbyrint Värdet v ett tillstånd beror v ktuell policy. 1 2 3 1 2 3 2 2 3 2 1 3 2 1 V vid optiml policy 14 2 22 14 18 22 2 2 22 18 14 22 2 14 V vid slumpmässig policy 1 2 3 4

Modell v omgivningen Vr hmnr vi? Hur mycket belöning får vi? δ(s, ) s r(s, ) R Värdet v olik tillstånd hänger ihop : Kn mn lös? V π (s) = r(s, π(s)) + γ V π (δ(s, π(s))) Direkt lösning (linjärt ekvtionssystem) Itertivt (vlue itertion) V π k+1 π (s) r(s, π(s)) + γ V (δ(s, π(s))) k V π (s) = r(s, π(s)) + γ V π (δ(s, π(s))) Hur får mn frm en optiml policy π? Lätt om mn visste den optiml värdefunktionen V : π (s) = rgmx (r(s, ) + γ V (δ(s, ))) Optiml vrinten v Svår tt lös Policy itertion: V (s) = mx (r(s, ) + γ V (δ(s, ))) Iterer policy och värdeberäkningrn växelvis 1 2 3 4 Temporl Difference Vnligen är r(s, ) och δ(s, ) inte känd v genten V π måste sktts genom erfrenhet Monte-Crlo tekniken Strt från slumpmässig s Följ π, lgr belöningr och s t När mn nått målet, uppdter V π (s)-skttningen för ll besökt tillstånd med den frmtid belöning mn verkligen fick Mycket långsm konvergens Idén bkom Temporl Difference: Utnyttj tt finns två skttningr för värdet v ett tillstånd: före och efter Vd mn tror innn mn hndlt V π (s t ) Vd mn tror efter mn hndlt r t+1 + γ V π (s t+1 )

Viktig observtion: Den ndr skttningen är bättre! Uppdter skttningen v värdet i riktning mot den bättre V π (s t ) V π (s t ) + η [r t+1 + γ V π (s t+1 ) V π (s t ) Mått på överrskningen / besvikelsen Lär sig betydligt snbbre än Monte-Crlo tekniken Problem: Även om mn hr skttt V br kn mn inte räkn ut π eftersom genten inte känner δ och r! Trick: Sktt Q(s, ) iställer för V (s) Q(s, ): Förväntd totl belöning när mn gör från s. π(s) = rgmx Q(s, ) V (s) = mx Q (s, ) Hur kn vi lär oss Q? Även Q-funktionen kn lärs med [ Q(s, ) Q(s, ) + η r + γ mx Q(s, ) Q(s, ) s är näst tillstånd. Litet problem: mx-opertionen kräver tt mn söker igenom ll tänkbr hndlingr i näst steg. SARSA-lerning Nästn smm som Q-lerning, men mn låter ktuell policy bestämm : Q(s, ) Q(s, ) + η [ r + γq(s, ) Q(s, ) Hr fått sitt nmn v tt erfrenhets-tuplern hr formen < s,, r, s, > 1 2 3 4 Vd gör mn när... Omgivningen är inte fullt observerbr Tillstånden är lltför mång Tillstånden är inte diskret Agenten hndlr i kontinuerlig tid

Explortion Exploittion dilemmt Om mn följer en policy bserd på ktuell skttning v Q konvergerr Q inte säkert mot Q Enkel lösning: Använd en policy som hr viss snnolikhet tt gör fel ɛ-greedy Gör iblnd (med snnolikheten ɛ) en slumpmässig hndling istället för den som verkr bäst (girig) Softmx Vikt snnolikheten tt gör olik hndlingr med hur br de verkr Ytterligre uppsnbbning Idé: TD-uppdteringrn kn utnyttjs till tt förbättr skttningen även v tillstånd där vi vrit tidigre. s, : Q(s, ) Q(s, ) + η [r t+1 + γq(s t+1, t+1 ) Q(s t, t ) e e är ett kvrdröjnde spår (eligibility trce) som beskriver hur länge sedn mn vr i s och gjorde. Klls oft TD(lmbd) där λ är tidskonstnten för vklingningen v spåret