14.1 Två-personers nollsummespel och konstantsummespel: sadelpunkt

Relevanta dokument
14 Spelteori Två-personers nollsummespel och konstantsummespel: sadelpunkt

Laboration 2: Spelteori

Laboration 2: Spelteori

Föreläsning 6: Spelteori II

1 Duala problem vid linjär optimering

TNK047 [TEN1] OPTIMERING OCH SYSTEMANALYS

Artificial Intelligence

Spelteori: Att studera strategisk interaktion. Grundkurs i nationalekonomi för jurister HT 2014 Jesper Roine, SITE, Handelshögskolan i Stockholm

TNK047 [TEN1] OPTIMERING OCH SYSTEMANALYS

Föreläsning 5: Spelteori I

Flöde i nätverk. Flöde i nätverk. Specialfall av minkostnadsflödesproblemet

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

TAOP33/TEN 2 KOMBINATORISK OPTIMERING GRUNDKURS

Övning 1 Sannolikhetsteorins grunder

Flöde i nätverk. Flöde i nätverk. Specialfall av minkostnadsflödesproblemet

LP-dualitet: Exempel. Vårt första exempel. LP-dualitet: Relationer. LP-dualitet: Generellt

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

Vårt första exempel. LP-dualitet: Exempel. LP-dualitet: Generellt. LP-dualitet: Relationer

Vektorrum. EX. Plan och linjer i rummet genom origo. Allmänt; mängden av lösningar till AX = 0.

1 LP-problem på standardform och Simplexmetoden

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

TNK047 OPTIMERING OCH SYSTEMANALYS

Föreläsn. anteckn. TMV206-VT13. Vecka 6-7. Egenvärden och Egenvektorer. Kap. 8-9

Optimeringslära Kaj Holmberg

Lösningar till SF1861/SF1851 Optimeringslära, 24/5 2013

TNK049 Optimeringslära

Optimalitetsvillkor. Optimum? Matematisk notation. Optimum? Definition. Definition

Kurragömma i ett socialt nätverk

Lösningsförslag till tentamen i SF1861 Optimeringslära för T. Torsdag 28 maj 2010 kl

Föreläsning 2: Simplexmetoden. 1. Repetition av geometriska simplexmetoden. 2. Linjärprogrammeringsproblem på standardform.

Lösningsförslag Fråga 1.

TNK047 OPTIMERING OCH SYSTEMANALYS

5B1817 Tillämpad ickelinjär optimering. Kvadratisk programmering med olikhetsbivillkor Active-set metoder

Föreläsn. anteckn. HT13. Vecka 6-7. Egenvärden och Egenvektorer. Slumpvandringar på Grafer. Kap. 8-9

Tentamen i nationalekonomi, tillämpad mikroekonomi A, 3 hp (samt 7,5 hp)

Hemuppgift 1, SF1861 Optimeringslära, VT 2017

Linjärprogramming. EG2205 Föreläsning 7, vårterminen 2015 Mikael Amelin

Förra gången. Allmänt om samarbete. Dagens föreläsning

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

1(8) x ijt = antal mobiltelefoner av typ i=1,,m, Som produceras på produktionslina 1,, n, Under vecka t=1,,t.

Institutionen för matematik KTH. Tentamensskrivning, , kl B1210 och 5B1230 Matematik IV, för B, M, och I.

Om semantisk följd och bevis

1. Ekvationer 1.1. Ekvationer och lösningar. En linjär ekvation i n variabler x 1,..., x n är en ekvation på formen. 2x y + z = 3 x + 2y = 0

DEL I. Matematiska Institutionen KTH. Lösning till tentamensskrivning på kursen Linjär algebra II, SF1604 för D, den 5 juni 2010 kl

Artificiell Intelligens

Algoritmer, datastrukturer och komplexitet

LINJÄR ALGEBRA II LEKTION 3

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

Optimeringslära Kaj Holmberg

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

Föreläsning 5: Dynamisk programmering

De optimeringsproblem som kommer att behandlas i denna kurs kan alla (i princip) skrivas. 1 2 xt Hx + c T x. minimera

Optimeringslära för T (SF1861)

Tentamensinstruktioner. När Du löser uppgifterna

Lösningar till 5B1762 Optimeringslära för T, 24/5-07

Spelutveckling Spelbalans. Design och produktion

TAOP33/TEN 2 KOMBINATORISK OPTIMERING GRUNDKURS

5B1817 Tillämpad ickelinjär optimering. Optimalitetsvillkor för problem med linjära bivillkor.

1. (Dugga 1.1) (a) Bestäm v (3v 2u) om v = . (1p) and u =

Resurscentrums matematikleksaker

1 Minkostnadsflödesproblem i nätverk

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

Funktionella beroenden - teori

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

2. Efterfrågan P Q E D = ΔQ % ΔP % =ΔQ ΔP. Efterfrågans priselasticitet mäter efterfrågans känslighet för prisförändringar. Def.

TAOP33/TEN 2 KOMBINATORISK OPTIMERING GRUNDKURS

TAMS79: Föreläsning 10 Markovkedjor

TAOP33/TEN 2 KOMBINATORISK OPTIMERING GRUNDKURS

Vinsten (exklusive kostnaden för inköp av kemikalier) vid försäljning av 1 liter fönsterputs är 2 kr för F1 och 3 kr för F3.

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

MIO310 OPTIMERING OCH SIMULERING, 4 p

Föreläsning 6: Nätverksoptimering

Optimeringslära Kaj Holmberg

1 De fyra fundamentala underrummen till en matris

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

Föreläsningsanteckningar Linjär Algebra II Lärarlyftet

Kan du det här? Geometrisk summa och linjär optimering

TMV036 Analys och linjär algebra K Kf Bt, del C

FULLSTäNDIGHETSAXIOMET, SATSEN OM MELLANLIGGANDE VäRDE OCH SATSEN OM STöRSTA OCH MINSTA VäRDE

Lösningar till SF1861 Optimeringslära, 28 maj 2012

TAOP33/TEN 2 KOMBINATORISK OPTIMERING GRUNDKURS för D och C. Tentamensinstruktioner. När Du löser uppgifterna

TENTAMEN. Tentamensinstruktioner. Datum: 30 augusti 2018 Tid: 8-12

x 1 x 2 x 3 x 4 x 5 x 6 HL Z x x x

Flöde i nätverk. Flöde i nätverk. Specialfall av minkostnadsflödesproblemet. Specialfall av minkostnadsflödesproblemet. Slutsats.

Statistik 1 för biologer, logopeder och psykologer

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

TNK047 [TEN1] OPTIMERING OCH SYSTEMANALYS

TNK049 Optimeringslära

Optimeringslära Kaj Holmberg

Lösningsförslag till tentamensskrivning i SF1610 Diskret Matematik för CINTE 30 maj 2018, kl

Mer om kontinuitet. Kapitel K. K.1 Övre och undre gräns

UPPSALA UNIVERSITET Matematiska institutionen Pepe Winkler tel

TAOP33/TEN 2 KOMBINATORISK OPTIMERING GRUNDKURS för D och C

Sida 1 av Låt VV = RR nn där RR nn är mängden av alla reella n-tipplar (ordnade listor med n reella tal) dvs

Tekniska Högskolan i Linköping Optimering av realistiska sammansatta system. Optimeringslära Kaj Holmberg.

En vektor är mängden av alla sträckor med samma längd och riktning.

Slappdefinition. Räkning med vektorer. Bas och koordinater. En vektor är mängden av alla sträckor med samma längd och riktning.

Transkript:

14 Spelteori 14.1 Två pers nollsummespel: sadelpunkt 14.2 Två pers nollsummespel: randomiserad strategi, dominans, grafisk lösning 14.3 LP och nollsummespel 14.4 Två personer - icke konstant spel. 14.5 Intro till n-pers spel teori 14.6 Kärnan i ett n-pers spel 14.7 Shapley värde

14.1 Två-personers nollsummespel och konstantsummespel: sadelpunkt 1. Det finns en radspelare och kolumnspelare 2. Radspelaren måste välja en av m strategier Kolumnspelaren måste välja en av n strategier 3. Om radspelaren väljer sin i:te strategi och kolumnspelaren sin j:te, då erhåller radspelaren en belöning a ij och kolumnspelaren förlorar ett belopp a ij 1 2 M a a 1 11 21 a a 2 11 22 L L L O a a n 1n 2n Belöningsmatris m a m1 a m2 L a mn

Antagande Varje spelare väljer en strategi som tillåter spelaren att göra så bra ifrån sig som möjligt, givet att motståndaren vet vilken strategi spelaren följer. Radspelaren ska välja raden med max(rad min). Kolumnspelaren ska välja kolumnen med min(kol max). Om max(rad min) = min (kolumn max) sägs spelet ha en sadelpunkt. Om ett spel har en sadelpunkt säger vi att detta är spelets värde för radspelaren. En sadelpunkt kan också ses som en jämviktspunkt eftersom ingen av spelarna tjänar på att själv byta strategi.

14.2 Spel utan sadelpunkt Om ett nollsummespel saknar sadelpunkt är det svårare att bestämma spelets värde och optimala spelstrategier. Vi måste tillåta fler spelstrategier för att lösa detta. Mixad eller randomiserad strategi betyder att spelaren väljer en strategi med en viss sannolikhet. Tex p=1/3 för 1,x eller 2 vid stryktips. En mixad strategi sägs vara ren om något x i = 1, (x 1,x 2,,x m )

14.3 LP och nollsummespel Ex: Sten, påse, sax kolumnspelare radspelare sten påse sax min 0-1 +1-1 +1 0-1 -1-1 +1 0-1 max +1 +1 +1 Eftersom spelet saknar sadelpunkt (max(rad min) = min (kolumn max)) låter vi radspelaren välja mixade strategin (x 1,x 2,x 3 ). Den förväntade vinsten mot kolumnspelarens val blir då kolumnspelare väljer rad spelarens förväntade vinst sten 0 x 1 +1 x 2-1 x 3 = x 2 x 3 påse -x 1 + x 3 sax x 1 -x 2

Enligt grundantagandet kommer nu kolumnspelaren välja den strategi som gör radspelarens vinst så liten som möjligt, dvs min(x 2 -x 3,- x 1 + x 2, x 1 -x 2 ) (*) och radspelaren bör då välja (x 1,x 2,x 3 ) så att (*) blir så stor som möjligt. Låt v beteckna max (*), då kan vi formulera detta som ett LP max z = v st v x 2 -x 3 stenbegränsning v - x 1 + x 3 påsbegränsning v x 1 -x 2 saxbegränsning x 1 + x 2 + x 3 = 1 x 1,x 2,x 0 3

Eller om man formulerar problemet för GLPK max v st v - x2 + x3 <= 0 v + x1 - x3 <= 0 v + x1 - x2 <= 0 x1 + x2 + x3 = 1 end vilket då ger, x 1 = x 2 = x 3 = 1/3 Det finns en begränsning för varje strategi som kolumnspelaren väljer. Värdet v på den optimala lösningen är radspelarens golv, dvs det radspelaren minst erhåller.

Kolumnspelaren Väljer också en mixad strategi, som vi kan kalla (y 1,y 2,y 3 ) Pss som tidigare Rad spelaren väljer Radspelarens förväntade vinst om kolumnspelaren väljer (y 1,y 2,y 3 ) sten -y 2 + y 3 påse y 1 -y 3 sax -y 1 + y 2 Eftersom radspelaren förväntas känna till (y 1,y 2,y 3 ) kommer radspelaren välja en strategi som ser till att han erhåller en förväntad vinst, max(-y 2 + y 3, y 1 -y 3, -y 1 + y 2 ) (**) Dvs kolumnspelaren ska välja (y 1,y 2,y 3 ) så att (**) blir så liten som möjligt.

Formulerat som ett LP problem får vi min z = w st w y 2 -y 3 w - y 1 + y 3 w y 1 -y 2 y 1 + y 2 + y 3 = 1 y 1,y 2,y 0 3 Man kan visa att radspelarens LP dual är lika med kolumnspelarens LP Dualsatsen ger oss att det optimala objektsfunktionsvärdet v för radspelarens LP och det optimala objektsfunktionsvärdet för w är lika

Sammanfattning 1. Kolla efter sadelpunkt, finns inga gå vidare 2. Stryk radspelarens dominerande strategier, och kolumnspelarens dominerande strategier. 3. Är matrisen 2x2 lös grafiskt, annars lös mha LP metoden.

14.4 Två personers ickekonstantsummespel Spelet fångarnas dilemma Ex: Två fångar erbjuds olika alternativ vid ett förhör Om endast en av er erkänner och vittnar mot den andre fången kommer personen som erkänt gå fri och den andre får 20-års fängelse Om båda erkänner 5 års fängelse för båda Om ingen erkänner 1 års fängelse för båda Fånge 2 Fånge 1 Erkänner Erkänner inte Erkänner ( -5, -5 ) ( 0, -20 ) Erkänner inte ( -20, 0 ) ( -1, -1 )

Def: Spelarnas val av strategi sägs vara en jämviktspunkt (EQP) om ingendera av spelarna kan tjäna på att ensidigt ändra sin strategi. Ex forts. (-1, -1) är ingen EQP eftersom ensidig ändring av strategi endast ger någon förtjänst åt den som erkänner. (-5, -5) är en EQP däremot Mer formellt: Om vi betecknar NC = ensidig ändring av strategi C = gemensamt strategibeslut P = straff för ensidigt beslut S = straff för den som blir lurad R = belöning om båda samarbetar T = frestelse om man luras

För att det ska vara ett FD spel krävs det att T > R > P > S Spelare 2 Spelare 1 NC C NC (P,P) (T,S) C (S,T) (R,R)

Ex. Vulcaner och Klingeoner håller på att upprusta. Det antas att varje nation har två möjligheter; utveckla ett ny missil eller försöka att bibehålla status quo. Belöningsmatrisen i poäng ges nedan Klingeoner Vulcaner DNM MSQ DNM (-10,-10) (10,-100) MSQ (-100,10) (0,0) (-10,-10) EQP

14.5 introduktion till n-personers spelteori Ett n-personers spel karaktäriseras av spelets karaktäristiska funktion Def. För varje delmängd S av N är den karaktäristiska funktionen V av ett spel lika med summan som medlemmarna av S minst erhåller om dom samarbetar och formar en koalition. Det betyder att V(S) kan bestämmas genom att man beräknar hur mycket medlemmarna av S kan få utan hjälp av spelarna utanför S. Ex 1. Spelare 1 äger en landbit som är värderat till 10. Spelare 2 är en mäklare som kan sälja landbiten till ett värde av 20. Spelare 3 är en mäklare som kan sälja till ett värde av 30. Hitta V för spelet V({ }) = V({2}) = V({3}) = V({2,3}) = 0 V({1}) = 10 V({1,2}) = 20 V({1,3}) = 30 V({1,2,3}) = 30

V måste vara superadditiv dvs V({A U B}) V({A}) + V({B}) Lösningsrecept för n-personers spel Låt X = {x 1,x 2,,x n } vara belöningsvektorn där spelare i erhåller belöning x i. V(N) = n i = 1 x i (1) X i V({ i }) för varje i N (2) Om X uppfyller (1) och (2) säger vi att X är en imputation I ex 1 skulle X=(10,10,10) vara en imputation men inte (5,20,5) eftersom X 1 < V( {1} )

14.6 Kärnan i ett n-personers spel Def. En imputation Y sägs dominera X genom en koalition S om i S yi V(S) (3) och för alla i S, y i > x i Vi skriver det som y > S x Om y > S x då varje medlem av S föredrar y mot x eftersom (3) gäller kan medlemmarna verkligen erhålla sin belöning Y Def. Kärnan (the Core) av ett n-personers spel är mängden av alla ickedominerade imputationer

Ex 1 forts. Låt X = (19, 1, 10) Y = (19.8, 0.1, 10.1) Visa att Y > {1,3} X Eftersom x 1 < y 1 och x 3 < y 3 samt y 1 + y 3 30 = V(S) = V({1,3}) Sats 1: En imputation X är i kärnan omm för varje delmängd S av N x i S i V(S)

Ex 1 forts. En godtycklig imputation X måste uppfylla att x 1 10 x 2 0 x 3 0 x 1 + x 2 +x 3 = 30 En imputation X ingår i kärnan omm x 1 + x 2 20 x 1 + x 3 30 x 2 + x 3 0 x 1 + x 2 +x 3 30 För att erhålla belöningen 30 måste x 2 = 0. Om x 2 = 0 måste x 1 20 Eftersom x 1 + x 3 = 30 måste 20 x 1 30 Dvs ( x 1, 0, 30 x 1 ), 20 x 1 30 blir lösningen.

14.7 Shapley värde Axiom A1. Byte av spelaretikett byter spelarbelöning n i = 1 A2. x = V(N) i A3. Om V( S {i} ) = V( S ) håller för alla koalitioner S då är Shapley-värdet för x i = 0. A4. Låt X vara Shapley-värdesvektorn (SVV) för spelet S1 och låt Y vara SVV för spelet S2 då är SVV för spelet (S1+S2): X+Y

Sats: Om A1-A4 är uppfyllt då ges Shapley värdet för i av x i = p n (S)[V(S U {i}) V(S)] S!(n S 1)! p n (S) = n! S Antalet spelare i S Bestäm Shapley värdet för spelarna i Ex 1. Vi hade att V({ }) = V({2}) = V({3}) = V({2,3}) = 0 V({1}) = 10 V({1,2}) = 20 V({1,3}) = 30 V({1,2,3}) = 30

Spelare 1 (landägaren) S P 3 (S) V(S U {1}) V(S) { } 2 / 6 10 { 2 } 1 / 6 20 { 3 } 1 / 6 30 { 2, 3 } 2 / 6 30 SV x 1 = 1 / 6 ( 2 10 + 1 20 + 1 30+2 30 ) = 130 / 6

Spelare 2 (mäklare 1) S P 3 (S) V(S U {2}) V(S) { } 2 / 6 0 { 1 } 1 / 6 20 10 = 10 { 3 } 1 / 6 0 { 1, 3 } 2 / 6 30 30 = 0 SV x 2 = 1 / 6 ( 2 0 + 1 10 + 1 0+2 0 ) = 10 / 6

Spelare 3 (mäklare 2) S P 3 (S) V(S U {3}) V(S) { } 2 / 6 0 { 1 } 1 / 6 30 10 = 20 { 2 } 1 / 6 0 { 1, 2 } 2 / 6 30 20 = 10 SV x 3 = 1 / 6 ( 2 0 + 1 20 + 1 0+2 10 ) = 40 / 6

Sammanfattningsvis, lösningen med Shapley värde ger att vår belöningsvektor blir SVV = (x 1,x 2,x 3 ) = 1/6 ( 130, 10,40)