14 Spelteori Två-personers nollsummespel och konstantsummespel: sadelpunkt

14 Spelteori 14.1 Två pers nollsummespel: sdelpunkt 14.2 Två pers nollsummespel: rndomiserd strtegi, dominns, grfisk lösning 14.3 LP och nollsummespel 14.4 Två personer - icke konstnt spel. 14.5 Intro till n-pers spel teori 14.6 Kärnn i ett n-pers spel 14.7 Shpley värde 14.1 Två-personers nollsummespel och konstntsummespel: sdelpunkt 1. Det finns en rdspelre och kolumnspelre 2. Rdspelren måste välj en v m strtegier Kolumnspelren måste välj en v n strtegier 3. Om rdspelren väljer sin i:te strtegi och kolumnspelren sin j:te, då erhåller rdspelren en belöning ij och kolumnspelren förlorr ett belopp ij 1 2 M 1 11 21 2 11 22 L L L O n 1n 2n Belöningsmtris m m1 m2 L mn 1

Antgnde Vrje spelre väljer en strtegi som tillåter spelren tt gör så br ifrån sig som möjligt, givet tt motståndren vet vilken strtegi spelren följer. Rdspelren sk välj rden med mx(rd min). Kolumnspelren sk välj kolumnen med min(kol mx). Om mx(rd min) min (kolumn mx) sägs spelet h en sdelpunkt. Om ett spel hr en sdelpunkt säger vi tt dett är spelets värde för rdspelren. En sdelpunkt kn också ses som en jämviktspunkt eftersom ingen v spelrn tjänr på tt själv byt strtegi. 14.2 Spel utn sdelpunkt Om ett nollsummespel sknr sdelpunkt är det svårre tt bestämm spelets värde och optiml spelstrtegier. Vi måste tillåt fler spelstrtegier för tt lös dett. Mixd eller rndomiserd strtegi betyder tt spelren väljer en strtegi med en viss snnolikhet. Tex p1/3 för 1,x eller 2 vid stryktips. En mixd strtegi sägs vr ren om något x i 1, (,x 2,,x m ) 2

14.3 LP och nollsummespel Ex: Sten, påse, sx kolumnspelre rdspelre sten påse sx min 0-1 +1-1 +1 0-1 -1-1 +1 0-1 mx +1 +1 +1 Eftersom spelet sknr sdelpunkt (mx(rd min) min (kolumn mx)) låter vi rdspelren välj mixde strtegin (,x 2,x 3 ). Den förväntde vinsten mot kolumnspelrens vl blir då kolumnspelre väljer rd spelrens förväntde vinst sten 0 +1 x 2-1 x 3 x 2 x 3 påse - + x 3 sx -x 2 Enligt grundntgndet kommer nu kolumnspelren välj den strtegi som gör rdspelrens vinst så liten som möjligt, dvs min(x 2 -x 3,- + x 2, -x 2 ) (*) och rdspelren bör då välj (,x 2,x 3 ) så tt (*) blir så stor som möjligt. Låt v beteckn mx (*), då kn vi formuler dett som ett LP mx z v st v x 2 -x 3 stenbegränsning v - + x 3 påsbegränsning v -x 2 sxbegränsning + x 2 + x 3 1,x 2,x 3 0 3

Eller om mn formulerr problemet för GLPK mx v st v - x2 + x3 < 0 v + x1 - x3 < 0 v + x1 - x2 < 0 x1 + x2 + x3 1 end vilket då ger, x 2 x 3 1/3 Det finns en begränsning för vrje strtegi som kolumnspelren väljer. Värdet v på den optiml lösningen är rdspelrens golv, dvs det rdspelren minst erhåller. Kolumnspelren Väljer också en mixd strtegi, som vi kn kll (y 1,y 2,y 3 ) Pss som tidigre Rd spelren väljer Rdspelrens förväntde vinst om kolumnspelren väljer (y 1,y 2,y 3 ) sten -y 2 + y 3 påse y 1 -y 3 sx -y 1 + y 2 Eftersom rdspelren förvänts känn till (y 1,y 2,y 3 ) kommer rdspelren välj en strtegi som ser till tt hn erhåller en förväntd vinst, mx(-y 2 + y 3, y 1 -y 3, -y 1 + y 2 ) (**) Dvs kolumnspelren sk välj (y 1,y 2,y 3 ) så tt (**) blir så liten som möjligt. 4

Formulert som ett LP problem får vi min z w st w y 2 -y 3 w - y 1 + y 3 w y 1 -y 2 y 1 + y 2 + y 3 1 y 1,y 2,y 3 0 Mn kn vis tt rdspelrens LP dul är lik med kolumnspelrens LP Dulstsen ger oss tt det optiml objektsfunktionsvärdet v för rdspelrens LP och det optiml objektsfunktionsvärdet för w är lik Smmnfttning 1. Koll efter sdelpunkt, finns ing gå vidre 2. Stryk rdspelrens dominernde strtegier, och kolumnspelrens dominernde strtegier. 3. Är mtrisen 2x2 lös grfiskt, nnrs lös mh LP metoden. 5

14.4 Två personers ickekonstntsummespel Spelet fångrns dilemm Ex: Två fångr erbjuds olik lterntiv vid ett förhör Om endst en v er erkänner och vittnr mot den ndre fången kommer personen som erkänt gå fri och den ndre får 20-års fängelse Om båd erkänner 5 års fängelse för båd Om ingen erkänner 1 års fängelse för båd Fånge 2 Fånge 1 Erkänner Erkänner inte Erkänner ( -5, -5 ) ( -20, 0 ) Erkänner inte ( 0, -20 ) ( -1, -1 ) Def: Spelrns vl v strtegi sägs vr en jämviktspunkt (EQP) om ingender v spelrn kn tjän på tt ensidigt ändr sin strtegi. Ex forts. (-1, -1) är ingen EQP eftersom ensidig ändring v strtegi endst ger någon förtjänst åt den som erkänner. (-5, -5) är en EQP däremot Mer formellt: Om vi betecknr NC C P S R T ensidig ändring v strtegi gemensmt strtegibeslut strff för ensidigt beslut strff för den som blir lurd belöning om båd smrbetr frestelse om mn lurs 6

För tt det sk vr ett FD spel krävs det tt T > R > P > S Spelre 2 Spelre 1 NC C NC (P,P) (T,S) C (S,T) (R,R) Ex. Vulcner och Klingeoner håller på tt upprust. Det nts tt vrje ntion hr två möjligheter; utveckl ett ny missil eller försök tt bibehåll sttus quo. Belöningsmtrisen i poäng ges nedn Klingeoner Vulcner DNM MSQ DNM (-10,-10) (10,-100) MSQ (-100,10) (0,0) (-10,-10) EQP 7

14.5 introduktion till n-personers spelteori Ett n-personers spel krktärisers v spelets krktäristisk funktion Def. För vrje delmängd S v N är den krktäristisk funktionen V v ett spel lik med summn som medlemmrn v S minst erhåller om dom smrbetr och formr en kolition. Det betyder tt V(S) kn bestämms genom tt mn beräknr hur mycket medlemmrn v S kn få utn hjälp v spelrn utnför S. E. Spelre 1 äger en lndbit som är värdert till 10. Spelre 2 är en mäklre som kn sälj lndbiten till ett värde v 20. Spelre 3 är en mäklre som kn sälj till ett värde v 30. Hitt V för spelet V({ }) V({2}) V({3}) V({2,3}) 0 V({1}) 10 V({1,2}) 20 V({1,3}) 30 V({1,2,3}) 30 V måste vr superdditiv dvs V({A U B}) V({A}) + V({B}) Lösningsrecept för n-personers spel Låt X {,x 2,,x n } vr belöningsvektorn där spelre i erhåller belöning x i. V(N) n i 1 x i X i V({ i }) för vrje i N (1) (2) Om X uppfyller (1) och (2) säger vi tt X är en imputtion I e skulle X(10,10,10) vr en imputtion men inte (5,20,5) eftersom X 1 < V( {1} ) 8

14.6 Kärnn i ett n-personers spel Def. En imputtion Y sägs dominer X genom en kolition S om i S y i V(S) (3) och för ll i S, y i > x i Vi skriver det som y > S x Om y > S x då vrje medlem v S föredrr y mot x eftersom (3) gäller kn medlemmrn verkligen erhåll sin belöning Y Def. Kärnn (the Core) v ett n-personers spel är mängden v ll ickedominerde imputtioner E forts. Låt X (19, 1, 10) Y (19.8, 0.1, 10.1) Vis tt Y > {1,3} X Eftersom < y 1 och x 3 < y 3 smt y 1 + y 3 30 V(S) V({1,3}) Sts 1: En imputtion X är i kärnn omm för vrje delmängd S v N i S xi V(S) 9

E forts. En godtycklig imputtion X måste uppfyll tt 10 x 2 0 x 3 0 + x 2 +x 3 30 En imputtion X ingår i kärnn omm + x 2 20 + x 3 30 x 2 + x 3 0 + x 2 +x 3 30 För tt erhåll belöningen 30 måste x 2 0. Om x 2 0 måste 20 Eftersom + x 3 30 måste 20 30 Dvs (, 0, 30 ), 20 30 blir lösningen. 14.7 Shpley värde Axiom A1. Byte v spelretikett byter spelrbelöning n i 1 i A2. x V(N) A3. Om V( S {i} ) V( S ) håller för ll kolitioner S då är Shpley-värdet för x i 0. A4. Låt X vr Shpley-värdesvektorn (SVV) för spelet S1 och låt Y vr SVV för spelet S2 då är SVV för spelet (S1+S2): X+Y 10

Sts: Om A1-A4 är uppfyllt då ges Shpley värdet för i v x i p n (S)[V(S U {i}) V(S)] S!(n S 1)! p n (S) n! S Antlet spelre i S Bestäm Shpley värdet för spelrn i E. Vi hde tt V({ }) V({2}) V({3}) V({2,3}) 0 V({1}) 10 V({1,2}) 20 V({1,3}) 30 V({1,2,3}) 30 Spelre 1 (lndägren) S { } { 2 } { 3 } { 2, 3 } P 3 (S) 2 / 6 1 / 6 1 / 6 2 / 6 V(S U {1}) V(S) 10 20 30 30 SV 1 / 6 ( 2 10 + 1 20 + 1 30+2 30 ) 130 / 6 11

S { } { 1 } { 3 } { 1, 3 } Spelre 2 (mäklre 1) P 3 (S) 2 / 6 1 / 6 1 / 6 2 / 6 V(S U {2}) V(S) 0 20 10 10 0 30 30 0 SV x 2 1 / 6 ( 2 0 + 1 10 + 1 0+2 0 ) 10 / 6 Spelre 3 (mäklre 2) S { } { 1 } { 2 } { 1, 2 } P 3 (S) 2 / 6 1 / 6 1 / 6 2 / 6 V(S U {3}) V(S) 0 30 10 20 0 30 20 10 SV x 3 1 / 6 ( 2 0 + 1 20 + 1 0+2 10 ) 40 / 6 12

Smmnfttningsvis, lösningen med Shpley värde ger tt vår belöningsvektor blir SVV (,x 2,x 3 ) 1/6 ( 130, 10,40) 13