14 Spelteori 14.1 Två pers nollsummespel: sadelpunkt 14.2 Två pers nollsummespel: randomiserad strategi, dominans, grafisk lösning 14.3 LP och nollsummespel 14.4 Två personer - icke konstant spel. 14.5 Intro till n-pers spel teori 14.6 Kärnan i ett n-pers spel 14.7 Shapley värde
14.1 Två-personers nollsummespel och konstantsummespel: sadelpunkt 1. Det finns en radspelare och kolumnspelare 2. Radspelaren måste välja en av m strategier Kolumnspelaren måste välja en av n strategier 3. Om radspelaren väljer sin i:te strategi och kolumnspelaren sin j:te, då erhåller radspelaren en belöning a ij och kolumnspelaren förlorar ett belopp a ij 1 2 M a a 1 11 21 a a 2 11 22 L L L O a a n 1n 2n Belöningsmatris m a m1 a m2 L a mn
Antagande Varje spelare väljer en strategi som tillåter spelaren att göra så bra ifrån sig som möjligt, givet att motståndaren vet vilken strategi spelaren följer. Radspelaren ska välja raden med max(rad min). Kolumnspelaren ska välja kolumnen med min(kol max). Om max(rad min) = min (kolumn max) sägs spelet ha en sadelpunkt. Om ett spel har en sadelpunkt säger vi att detta är spelets värde för radspelaren. En sadelpunkt kan också ses som en jämviktspunkt eftersom ingen av spelarna tjänar på att själv byta strategi.
14.2 Spel utan sadelpunkt Om ett nollsummespel saknar sadelpunkt är det svårare att bestämma spelets värde och optimala spelstrategier. Vi måste tillåta fler spelstrategier för att lösa detta. Mixad eller randomiserad strategi betyder att spelaren väljer en strategi med en viss sannolikhet. Tex p=1/3 för 1,x eller 2 vid stryktips. En mixad strategi sägs vara ren om något x i = 1, (x 1,x 2,,x m )
14.3 LP och nollsummespel Ex: Sten, påse, sax kolumnspelare radspelare sten påse sax min 0-1 +1-1 +1 0-1 -1-1 +1 0-1 max +1 +1 +1 Eftersom spelet saknar sadelpunkt (max(rad min) = min (kolumn max)) låter vi radspelaren välja mixade strategin (x 1,x 2,x 3 ). Den förväntade vinsten mot kolumnspelarens val blir då kolumnspelare väljer rad spelarens förväntade vinst sten 0 x 1 +1 x 2-1 x 3 = x 2 x 3 påse -x 1 + x 3 sax x 1 -x 2
Enligt grundantagandet kommer nu kolumnspelaren välja den strategi som gör radspelarens vinst så liten som möjligt, dvs min(x 2 -x 3,- x 1 + x 2, x 1 -x 2 ) (*) och radspelaren bör då välja (x 1,x 2,x 3 ) så att (*) blir så stor som möjligt. Låt v beteckna max (*), då kan vi formulera detta som ett LP max z = v st v x 2 -x 3 stenbegränsning v - x 1 + x 3 påsbegränsning v x 1 -x 2 saxbegränsning x 1 + x 2 + x 3 = 1 x 1,x 2,x 0 3
Eller om man formulerar problemet för GLPK max v st v - x2 + x3 <= 0 v + x1 - x3 <= 0 v + x1 - x2 <= 0 x1 + x2 + x3 = 1 end vilket då ger, x 1 = x 2 = x 3 = 1/3 Det finns en begränsning för varje strategi som kolumnspelaren väljer. Värdet v på den optimala lösningen är radspelarens golv, dvs det radspelaren minst erhåller.
Kolumnspelaren Väljer också en mixad strategi, som vi kan kalla (y 1,y 2,y 3 ) Pss som tidigare Rad spelaren väljer Radspelarens förväntade vinst om kolumnspelaren väljer (y 1,y 2,y 3 ) sten -y 2 + y 3 påse y 1 -y 3 sax -y 1 + y 2 Eftersom radspelaren förväntas känna till (y 1,y 2,y 3 ) kommer radspelaren välja en strategi som ser till att han erhåller en förväntad vinst, max(-y 2 + y 3, y 1 -y 3, -y 1 + y 2 ) (**) Dvs kolumnspelaren ska välja (y 1,y 2,y 3 ) så att (**) blir så liten som möjligt.
Formulerat som ett LP problem får vi min z = w st w y 2 -y 3 w - y 1 + y 3 w y 1 -y 2 y 1 + y 2 + y 3 = 1 y 1,y 2,y 0 3 Man kan visa att radspelarens LP dual är lika med kolumnspelarens LP Dualsatsen ger oss att det optimala objektsfunktionsvärdet v för radspelarens LP och det optimala objektsfunktionsvärdet för w är lika
Sammanfattning 1. Kolla efter sadelpunkt, finns inga gå vidare 2. Stryk radspelarens dominerande strategier, och kolumnspelarens dominerande strategier. 3. Är matrisen 2x2 lös grafiskt, annars lös mha LP metoden.
14.4 Två personers ickekonstantsummespel Spelet fångarnas dilemma Ex: Två fångar erbjuds olika alternativ vid ett förhör Om endast en av er erkänner och vittnar mot den andre fången kommer personen som erkänt gå fri och den andre får 20-års fängelse Om båda erkänner 5 års fängelse för båda Om ingen erkänner 1 års fängelse för båda Fånge 2 Fånge 1 Erkänner Erkänner inte Erkänner ( -5, -5 ) ( 0, -20 ) Erkänner inte ( -20, 0 ) ( -1, -1 )
Def: Spelarnas val av strategi sägs vara en jämviktspunkt (EQP) om ingendera av spelarna kan tjäna på att ensidigt ändra sin strategi. Ex forts. (-1, -1) är ingen EQP eftersom ensidig ändring av strategi endast ger någon förtjänst åt den som erkänner. (-5, -5) är en EQP däremot Mer formellt: Om vi betecknar NC = ensidig ändring av strategi C = gemensamt strategibeslut P = straff för ensidigt beslut S = straff för den som blir lurad R = belöning om båda samarbetar T = frestelse om man luras
För att det ska vara ett FD spel krävs det att T > R > P > S Spelare 2 Spelare 1 NC C NC (P,P) (T,S) C (S,T) (R,R)
Ex. Vulcaner och Klingeoner håller på att upprusta. Det antas att varje nation har två möjligheter; utveckla ett ny missil eller försöka att bibehålla status quo. Belöningsmatrisen i poäng ges nedan Klingeoner Vulcaner DNM MSQ DNM (-10,-10) (10,-100) MSQ (-100,10) (0,0) (-10,-10) EQP
14.5 introduktion till n-personers spelteori Ett n-personers spel karaktäriseras av spelets karaktäristiska funktion Def. För varje delmängd S av N är den karaktäristiska funktionen V av ett spel lika med summan som medlemmarna av S minst erhåller om dom samarbetar och formar en koalition. Det betyder att V(S) kan bestämmas genom att man beräknar hur mycket medlemmarna av S kan få utan hjälp av spelarna utanför S. Ex 1. Spelare 1 äger en landbit som är värderat till 10. Spelare 2 är en mäklare som kan sälja landbiten till ett värde av 20. Spelare 3 är en mäklare som kan sälja till ett värde av 30. Hitta V för spelet V({ }) = V({2}) = V({3}) = V({2,3}) = 0 V({1}) = 10 V({1,2}) = 20 V({1,3}) = 30 V({1,2,3}) = 30
V måste vara superadditiv dvs V({A U B}) V({A}) + V({B}) Lösningsrecept för n-personers spel Låt X = {x 1,x 2,,x n } vara belöningsvektorn där spelare i erhåller belöning x i. V(N) = n i = 1 x i (1) X i V({ i }) för varje i N (2) Om X uppfyller (1) och (2) säger vi att X är en imputation I ex 1 skulle X=(10,10,10) vara en imputation men inte (5,20,5) eftersom X 1 < V( {1} )
14.6 Kärnan i ett n-personers spel Def. En imputation Y sägs dominera X genom en koalition S om i S yi V(S) (3) och för alla i S, y i > x i Vi skriver det som y > S x Om y > S x då varje medlem av S föredrar y mot x eftersom (3) gäller kan medlemmarna verkligen erhålla sin belöning Y Def. Kärnan (the Core) av ett n-personers spel är mängden av alla ickedominerade imputationer
Ex 1 forts. Låt X = (19, 1, 10) Y = (19.8, 0.1, 10.1) Visa att Y > {1,3} X Eftersom x 1 < y 1 och x 3 < y 3 samt y 1 + y 3 30 = V(S) = V({1,3}) Sats 1: En imputation X är i kärnan omm för varje delmängd S av N x i S i V(S)
Ex 1 forts. En godtycklig imputation X måste uppfylla att x 1 10 x 2 0 x 3 0 x 1 + x 2 +x 3 = 30 En imputation X ingår i kärnan omm x 1 + x 2 20 x 1 + x 3 30 x 2 + x 3 0 x 1 + x 2 +x 3 30 För att erhålla belöningen 30 måste x 2 = 0. Om x 2 = 0 måste x 1 20 Eftersom x 1 + x 3 = 30 måste 20 x 1 30 Dvs ( x 1, 0, 30 x 1 ), 20 x 1 30 blir lösningen.
14.7 Shapley värde Axiom A1. Byte av spelaretikett byter spelarbelöning n i = 1 A2. x = V(N) i A3. Om V( S {i} ) = V( S ) håller för alla koalitioner S då är Shapley-värdet för x i = 0. A4. Låt X vara Shapley-värdesvektorn (SVV) för spelet S1 och låt Y vara SVV för spelet S2 då är SVV för spelet (S1+S2): X+Y
Sats: Om A1-A4 är uppfyllt då ges Shapley värdet för i av x i = p n (S)[V(S U {i}) V(S)] S!(n S 1)! p n (S) = n! S Antalet spelare i S Bestäm Shapley värdet för spelarna i Ex 1. Vi hade att V({ }) = V({2}) = V({3}) = V({2,3}) = 0 V({1}) = 10 V({1,2}) = 20 V({1,3}) = 30 V({1,2,3}) = 30
Spelare 1 (landägaren) S P 3 (S) V(S U {1}) V(S) { } 2 / 6 10 { 2 } 1 / 6 20 { 3 } 1 / 6 30 { 2, 3 } 2 / 6 30 SV x 1 = 1 / 6 ( 2 10 + 1 20 + 1 30+2 30 ) = 130 / 6
Spelare 2 (mäklare 1) S P 3 (S) V(S U {2}) V(S) { } 2 / 6 0 { 1 } 1 / 6 20 10 = 10 { 3 } 1 / 6 0 { 1, 3 } 2 / 6 30 30 = 0 SV x 2 = 1 / 6 ( 2 0 + 1 10 + 1 0+2 0 ) = 10 / 6
Spelare 3 (mäklare 2) S P 3 (S) V(S U {3}) V(S) { } 2 / 6 0 { 1 } 1 / 6 30 10 = 20 { 2 } 1 / 6 0 { 1, 2 } 2 / 6 30 20 = 10 SV x 3 = 1 / 6 ( 2 0 + 1 20 + 1 0+2 10 ) = 40 / 6
Sammanfattningsvis, lösningen med Shapley värde ger att vår belöningsvektor blir SVV = (x 1,x 2,x 3 ) = 1/6 ( 130, 10,40)