Artificiell Intelligens, Ht 2004 2004-10-19 Lärare: Christina Olsén Handledare: Therese Edvall Daniel Ölvebrink Laboration 2 Laboranter: Johan Bystedt (dit02lbt) Alexander Pettersson (dit02apn) Stefan Zingmark (dit02szk)
Sammanfattning Rapporten ska belysa begreppet utility funktioner, vad dessa är samt när de används. Utility funktioner handlar om att tilldela ett numeriskt värde till varje valbar situation. Utifrån dessa värden navigerar agenten i sin miljö.
Making simple decisions Making simple decisions handlar om hur en agent bör agera för att få det som den vill ha, åtminståne i det långa loppet. Decision-theoretic agenter kombinerar sannolikhetslära med utility funktioner för att ta rationella beslut baserat på vad den tror och vad den vill. Till skillnad från en goalbased agent som bara skiljer på bra och dåliga tillstånd så använder sig en decisiontheoretic agenten av kontinuerliga mätningar för att kunna avgöra sitt tillstånd. Utility functions Utility är en funktion som beskriver ett tillstånd med hjälp av siffror. Samtidigt kan en agent ha vilka preferenser som helst som den kan interagera med. Målet med att installera utility funktioner i en artificell agent är det att få den att utföra det handlingar vi sagt åt den att göra. Utility funktionerna har sina rötter inom ekonomin.om vi begränsar oss till att titta på handlingar som påverkar hur stort belopp en agent har så föredrar den oftast ett större belopp mot ett mindre, då säger man att agenten har en monotonic preferens för ändliga belopp.
Exempel Tänk dig att du just har vunnit 1 miljon dollar och erbjuds direkt att spela om den miljonen genom att flippa ett mynt. Om du vinner så får du 3 miljoner dollar, men förlorar du så förlorar du allt. De flesta av oss skulle inte gå med på vadet utan skulle nöja sig med miljonen man just vunnit. Men agear vi rationellt? Om vi tror på att myntet är rättvist så är det expected momentary value : ½($0) + ½($ 3.000.000) = $1.500.000 och expected momentary value för att ta orginalpriset är $1.000.000, vilket är mindre. Men det betyder däremot inte att gå med på erbjudandet är bättre. För att besluta vad vi ska göra så måste vi tilldela utility funktioner till de ovan. Utility funktionen är inte proportionellt till de monetary value. Detta pga av den positiva utgången vid vinsten av den första miljonen, därför är utility :n för ytterligare 3 miljoner mycket mindre. Om man däremot hade varit en mulitmiljonär vid vinsten av den första miljonen så hade man säkert accepterat erbjudandet om att kassta myntet en till gång för att ha möjligheten att vinna tre miljoner. Studier på utility funktioner av pengar gjorda av Grayson (1960) visar på att dessa är exakt logaritmiskt proportionella av beloppet. Vi ska inte anta att det är den defenitiva utility funktionen för momentary value, men det är nog mest troligt att det flesta människor har en utility funktion som är konkav för positiva värden. U $ En sk s-shaped kurva Agenter som föredrar ett värde som är mindre än det expected momentary value säger man är risk-averse. Risk-seeking är man däremot om man befinner sig på den negativa sidan. En agent som har en linjär funktion säger man är risk-neutral.
Utility functions, forts. Ett utility är ett numeriskt betygssystem som tilldelas varje möjlig utkomma en person kan ställas inför. Den som har högst utility kommer alltid att bli vald. För att vara kvalicerad som en sann utility -skala så måste värdet av en osäkehet vara lika med värdet av det matematiska väntevärdet. En lott med ett värde på 75% betyder att sannolikheten att vinna jackpotten är 0,75, och detta kommer att få utility -värdet 0,75. Allt som estimeras att vara lika värdefullt som just en sådan lott kommer också att få samma värde, varken mer eller mindre. Ovan är utility -värdet mellan 0 och 1 men det finns inga sådana restriktioner. Utan utility -värdet kan anta vilket värde som helst. Ett exempel: Du kanske skulle kunna vara villig att betala $1 för att med en sannolikhet på 1/2.000.000 kunna vinna $1.000.000, men väldigt få, om några alls, skulle betala $499.999 för att kunna vinna $1.000.000 med en chans på 50%. Någon skulle dock kunna ta det senare erbjudandet om denne befann sig i en väldigt speciell situation där en omedelbar vinst på $1.000.000 skulle kunna göra så att dennes livsdrömmar genast blev sanna. Medan en förlust på $500.000 inte skulle vara så farlig i det långa loppet. Den rationella grunden för detta val är baserat på de utilities som är involverade. Om ditt nuvarande tillstånd är W, vad skulle vara det exakta utility -värdet för dig om det totala tillståndet är lika med W, W-1,W- $4.99.999 eller W+$1.000.000? Hur motsvaras detta av en förlust av en kroppsdel? Social status? Allmänt åtlöje? Skulle du kunna gå ut naken för $10 eller $10.000, eller kanske graits? Allt som har en vikt i dina val måste tilldelas ett utility -värde på din personliga skala. I till exempel ett lotteri så finns det en viss lekfullhet, vilket ökar vår lust att köpa lotten. De som designar lotterier och andra spel har så klart detta i åtanke när de designar en ny lott eller lotteri. Det så kallade St. Petersburg Spelet spelas med ett rättvist mynt som kastas tills dess att sidan med klave kommer upp. Om spelet varar i n+1 kast så vinner spelaren 2 n dollar. Alltså $1 om klaven kommer upp första gången, $2 för andra kastet och sedan, 4, 8, 16, 32, 64, 128 etc. Vad är ett rättvist pris att betala för att få spela detta spel? Detta kallas för St. Petersburg Paradox. Den matematiska förväntningen för detta spel är oändligt, eftersom det kommer att vara summan av den divergenta serien: (1/2)(1)+(1/4)(2)+(1/8)(4)+(1/16)(8)+... = 1/2 + 1/2 + 1/2 + 1/2 +... Hur som helst så är det ganska klart att ingen skulle betala mer än ett par dollar för att spela detta spel... varför? När frågan lades fram tidigt på 1900-talet, trodde man fortfarande att värdet av att spela skulle enbart vara baserat på dess rättvisa pris, som är ett annat namn för dess matematiska förväntning. Eftersom att detta inte kunde användas i det ovanstående spelet ledde detta till introduktionen av det moderna konceptet av the utility of a prospect.
I ett brev från Nicolas Bernoulli, en swiss matematiker, till Pierre Rémond de Montmort nämner Bernoulli att man ska använda en tärning istället för ett mynt. Men den lägre sannolikheten, 1/6, att avgöra spelets utgång vid varje kast gör att vänteserien divergerar ännu snabbare. Några år senare skickade matematikern Gabriel Cramer ett brev till Bernoulli där han återupptog spelet i sin moderna form, för enkelhets skull, med ett mynt istället för en tärning. Han sa att "mathematicians estimate money in proportion to its quantity, and men of good sense in proportion to the usage that they may make of it". Cramer kvantifierade då uttrycket i termer av vad vi nu skulle kalla en utility function. Cramers första exempel av en utility function var helt enkelt propotionell mot pengamängden upp till en specifik punkt (han använde 2 24 mynt, för enkelhets skull) och konstant efter det. Hans andra exempel var en utility function av pengar propotionellt mot kvadratroten av mängden pengar. Båda dessa utility functions leder till en slutlig utility till orginalet av St. Petersburg spelet, men det andra exemplet skulle misslyckas att lösa uppgiften om utdelningssekvensen ökade snabbare (t ex, om spelaren tjänade 4 n dollar för att göra n+1 kast). Detta betyder att alla utility functions måste ha en övre gräns, annars får man en oändlig sekvens av förväntningar, den n:te som har en utility som är minst lika med 2 n. Den n:te sådan förväntning som utdelning för att framgångsrikt ha kastat n stycken kast i ett St. Petersburg spel skulle ge oändlig utility, vilket inte är acceptabelt. Kontentan av utility konceptet ger ett slutgiltigt värde till en enskild förväntning, vilket är vad hela St. Petersburg spelet handlar om. Nicolas Bernoulli var dock en motståndare till Cramers idéer. Detta återupplivade ämnet som startades av Nicolas, som i sin tur frågade sin kusin Daniel Bernoulli. Daniel var också han en matematisk professor vid St. Petersburg. Han publicerar också sitt arbete, och det är genom detta som paradoxet fått sitt moderna namn. 1731 återupptäckte Daniel Bernoulli den moderna idén om utilities (oberoende av Cramer), som Nicolas fortsatte att motstå. Daniel hittade ett fel i Cramers idé, nämligen att det är allmänt kritiskt att bara se till hela spelarens rikedomar och tilldela endast en utility till hela saken. Utility :n förändras väldigt mycket om ett ytterligare mynt skulle påverka spelarens fortsatta framgång. Diskussion Laborationen som sådan har varit väldigt svår och tråkig. Svårt att både hitta någon vettig information, samt svårt att förstå informationen. Det man har hittat i kursboken har varit alltför inriktat på formler, det kan leda till att redovisningarna blir alltför tekniska och svåra att förstå för den som inte har satt sig in i kapitlet tillräckligt.
Referenser Artificial Intelligence: A Modern Approach, second edition, Stuart Russell, Peter Norvig http://home.att.net/~numericana/answer/utility.htm (2004-10-19)