Ulf Johansson PhD i datavetenskap, LiTH, 2007. Professor i datavetenskap, 2015 Arbetar på Högskolan i Borås och Tekniska Högskolan i Jönköping Forskar inom data science främst på algoritmer och metoder för dataanalys ( data mining ) Driver flera externfinansierade forskningsprojekt med företagspartners från olika branscher
Data science
Läget i dag Stora datamängder genereras överallt Dessa analyseras i ökad utsträckning med kraftfulla algoritmer för att hitta värdefulla samband Business intelligence ++ Verksamhetskritiskt för många företag inom diverse olika branscher Många olika programvaror tillgängliga från företag som Google, Adobe, IBM, Microsoft, SAS institute, SPSS etc. Även fri programvara, t.ex. Weka, R, SciKit-Learn
Syfte & Mål Jag tror (och argumenterar här för) att metoder från data science kan användas för många nya syften, exempelvis för att analysera forskningsdata i en mängd domäner Prediktiv modellering Klassificering och regression Klustring Associationsregler Några populära men ändå tankeväckande exempel på dataanalys
Disclaimer I pågående forskningsprojekt analyserar vi exempelvis: molekyler som del av drug discovery hos AZ patientjournaler för att identifiera biverkningar e-handelsföretags kunddatabaser för ökad konsumentinsikt men även t.ex. i syfte att minska antalet returer. hur förarens respektive lastbilens konfiguration påverkar bränsleförbrukningen hos Scanialastbilar
Fish or Shark Data Mining Online Poker Ett exempel på concept description Ulf Johansson Cecilia Sönströd Computer Science Lab School of Business and Informatics University of Borås Sweden
Concept description Vi applicerade ett antal data mining tekniker på data insamlad från online-poker. Det övergripande målet var att hitta tydliga mönster i de olika spelarnas strategier vilka förklarar vad som skiljer en skicklig (vinnande) spelare från en dålig (förlorande).
Concept description Blandade explorativa och prediktiva tekniker Använde endast publik data, dvs. ingen information om vilka två kort en viss spelare hade på handen i de olika givarna. Tusentals spelare alla med fler än 1000 händer
Concept description Varje spelares strategi beskrevs med 23 variabler hämtade från den insamlade datan. Tabellen nedan visar medelvärden på några utvalda attribut för de 100 bästa spelarna och de 100 sämsta spelarna. VPIP PFR/VPIP CCPF AF Winner 31.88 54.71 12.15 1.97 Loser 66.23 15.01 49.63 0.96 Inringade värden är alla i procent dvs. de är enkla att tolka
90 Concept description 80 Vinnare Förlorare 70 60 CCPF 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90 100 VPIP
Concept description Exempel på en funnen regelmängd IF CCPF >= 28.7 THEN Loser [1740/220] IF W$WSF >= 41.1 THEN No_Loser [1201/141] IF VPIP_UTG <= 16.18 THEN No_Loser [495/87] IF CCPF >= 24.62 THEN Loser [254/65] IF W$WSF >= 40.06 THEN No_Loser [205/54] IF W$WSF >= 39.11 THEN No_Loser [173/44] IF Steal <= 6.62 THEN Loser [120/37] IF CBETT >= 12.78 THEN Loser [100/31] IF W$WSF >= 38.42 THEN No_Loser [94/27] IF 3Bet <= 4.3 THEN No_Loser [78/23] DEFAULT: No_Loser[434/211]
Är Poker ett skicklighetsspel? Har betydelse för lagstiftningen Olika lagar gäller för skicklighetsspel och hasardspel. Vår studie visade att det är möjligt att kategorisera spelare som vinnare och förlorare utifrån deras spelsätt, vilket användes som ett argument för att Poker måste ses som ett skicklighetsspel.
COMMONWEALTH OF PENNSYLVANIA vs WALTER WATKINS IN THE COURT OF COMMON PLEAS FOR THE 26TH JUDICIAL DISTRICT, COLUMBIA COUNTY BRANCH, PENNSYLVANIA CRIMINAL DIVISION CASE NO: 746 OF 2008 This court finds that Texas Hold em poker is a game where skill predominates over chance. Thus, it is not unlawful gambling under the Pennsylvania Crimes Code. However, academics and researchers have found scientific and statistical bases for the proposition that poker is a game of skill. For example, one excellent academic abstract reported the results of a statistical study of online poker in order to explain what signifies successful play. See Explaining Winning Poker A Data Mining Approach by Ulf Johansson, Cecilia Sonstrod, and Lars Niklasson, Proceeding of the 5th International Conference on Machine Learning and Applications (ICMLA 06). These Swedish researchers conducted a statistical analysis as to what skills make a successful Texas Hold em poker player.
DN 2011-02-23 Tre sakkunniga vittnen hördes på onsdagen i HD på begäran av arrangörernas advokater och alla var överens om att skickligheten är avgörande för om en spelare ska vinna. -Strategierna hos en spelare är avgörande för utgången. Den som är skicklig och fattar rätta besluten vinner. Skickligheten har stor betydelse, sade Ulf Johansson, forskare och universitetslektor i Borås. Han är expert på spelteori och pokerspel. Utländsk forskning stöder Johanssons slutsatser. Han får även medhåll av andra svenska experter. Tävlingen i Grebbestad byggde på skicklighet, sade Erik Broman, doktor i matematik vid Chalmers högskola i Göteborg. Han sade i HD att en spelare som låter slumpen styra i poker är en förlorare. - Det är endast när de första korten delas ut som slumpen har betydelse. Därefter är det hur spelaren agerar i olika situationer, satsar och synar, som har betydelse, sade han.
Är Poker ett skicklighetsspel? Högsta domstolens utslag innebar följande kompromiss: Poker är ett skicklighetsspel då det spelas i turneringsform. I kontantspel anses dock slumpen vara avgörande, dvs. då är Poker ett hasardspel. HD:s argumentation för sitt beslut tog utgångspunkt i att en turnering innebär att ett större antal händer kommer spelas, vilket ansågs krävas för att skickligheten skulle avgöra utfallet.
Data Mining och jakten på den perfekta golfsvingen G OLF D ATA ANALY SIS (G OATS )
GOATS- Syfte Använda och utveckla tekniker från maskininlärning och visualisering för att analysera golfsvingen utifrån kvantitativ data om sving och bollflykt i kombination med höghastighetsvideo och 3D-data. Bidra till golfteorin Skapa ett ramverk för att analysera, visualisera och kombinera kvantitativ data och video. Vetenskapligt bidrag Algoritm- och metodutveckling för dataanalys Data Mining, Machine Learning, Visualisering
Projektet i Media
GOATS Initiala resultat (exempel) Triviala: Duktiga spelare slår längre Intressanta: Duktiga spelare har en flackare swing än sämre Spridning i sida är mer särskiljande än spridning i längd Vinkeln på bladet i träffen, relativt mållinjen, är en extremt viktig variabel Både i absoluta tal bör vara mindre än 3 grader och som ett mått på konsistens duktiga spelare levererar klubban med liknande bladvinkel varje gång, medan det kan skilja många grader för en sämre spelare. Konsistens är allmänt den mest särskiljande egenskapen för duktiga spelare En majoritet av amatörgolfare slår inte bollen tillräckligt bra för att den fundamentala teorin för golfswingar skall gälla
Ett exempel utanför akademin
Baseball - MLB 30 lag 162 matcher för varje lag per säsong Individuell lagsport Diskret och inte kontinuerlig Tillräckligt många tillfällen (t.ex. som slagman) för att det skall vara meningsfullt att analysera data och statistik för enskilda spelare
Baseball - MLB
Moneyball Moneyball: The Art of Winning an Unfair Game Bok av Michael Lewis, om laget Oakland Athletics och deras GM Billy Beane. Oakland använde en analytisk och databaserad strategi för att skapa ett starkt lag trots en relativt sett mycket låg budget. En film Moneyball med Brad Pitt som Billy Beane hade stor succé 2011.
Oakland ifrågasatte etablerade sanningar om vilka spelartyper och strategier som gör att ett lag vinner matcher, och skapade ett lag som med US$41 miljoner i lönekostnader var konkurrenskraftigt mot t.ex. New York Yankees, med löner över US$125 miljoner samma säsong. Hela idén var att hitta spelare som var undervärderade av marknaden, utifrån att marknaden inte värderade rätt egenskaper. Oakland nådde med denna strategi slutspelet 2002 och 2003.