The Trout Truth is Out In There Ulf Johansson Computer Science Lab Department of Information Technology University of Borås Sweden
Ulf Johansson PhD i datavetenskap, LiTH, 2007. Docent 2012. Lektor på Högskolan i Borås, avdelningen för informationsteknologi. Forskar på algoritmer och metoder för dataanalys ( data mining ) Driver flera externfinansierade forskningsprojekt med företagspartners från olika branscher
Framtidens Business Intelligence 2 MSEK projekt i samverkan med SIIR och finansierat av Handels Utvecklingsråd 2013-2015 (2 år) Partners: ICA, Willys. Försäljningsprognosticering och kampanjanalys Kundinsikt och individualiserade erbjudanden Projektet bygger på expertis inom data mining, high performance computing och marknadsföring.
Syfte & Mål Några populära men ändå tankeväckande exempel på dataanalys Problemen är olika men teknikerna generella Fällor och möjligheter med dataanalys Vad kan akademin bidra med?
Inledande exempel
Baseball - MLB 30 lag 162 matcher för varje lag per säsong Individuell lagsport Diskret och inte kontinuerlig Tillräckligt många tillfällen (t.ex. som slagman) för att det skall vara meningsfullt att analysera data och statistik för enskilda spelare
Baseball - MLB
Moneyball Moneyball: The Art of Winning an Unfair Game Bok av Michael Lewis, om laget Oakland Athletics och deras GM Billy Beane. Oakland använde en analytisk och databaserad strategi för att skapa ett starkt lag trots en relativt sett mycket låg budget. En film Moneyball med Brad Pitt som Billy Beane hade stor succé 2011.
Oakland ifrågasatte etablerade sanningar om vilka spelartyper och strategier som gör att ett lag vinner matcher, och skapade ett lag som med US$41 miljoner i lönekostnader var konkurrenskraftigt mot t.ex. New York Yankees, med löner över US$125 miljoner samma säsong. Hela idén var att hitta spelare som var undervärderade av marknaden, utifrån att marknaden inte värderade rätt egenskaper. Oakland nådde med denna strategi slutspelet 2002 och 2003.
Moneyball Före moneyball Spelare värderades främst av mänskliga experter (scouter) utifrån fysiska egenskaper. Analys av data skedde oftast i efterhand och med relativt primitiva verktyg. Även då dataanalys användes fokuserades det generellt på fel indikatorer. Stor enighet kring vad som skall värderas dvs. alla vill ha samma spelare. Efter moneyball Spelare värderas i större utsträckning utifrån objektiva mått som speglar deras prestationer hittills. Avancerade analyser, t.ex. avseende hur olika kategorier av spelares prestanda förändras med åldern. Indikatorer som empiriskt visat sig ha större betydelse för ett lags förmåga att vinna prioriteras. Relativt stor enighet kring kriterier, men stor vilja till ytterligare utveckling.
Generella tekniker specifika problem Data mining: Att hitta värdefull information i databaser. The nontrivial extraction of implicit, previously unknown, and potentially useful information from data*. Andra namn: Exploratory data analysis, Data driven discovery, Deductive learning, Discovery Science, Knowledge Discovery etc. Kombinerar ofta tekniker från statistik och maskininlärning *G. Piatetsky-Shapiro and W. J. Frawley, Knowledge Discovery in Databases, AAAI/MIT Press, 1991.
Generella tekniker specifika problem Concept description Hitta tydliga förklaringar för viktiga samband i datan. Prediktiv modellering (klassificering, regression, tidsserier) Bygg en modell av ett samband från historisk data och använd modellen för att predicera nya värden. Klustring (segmentering) Dela in posterna i datan (t.ex. kunder) i olika grupper där posterna inom ett kluster skall vara så lika varandra som möjligt samtidigt som klustren är så olika varandra som möjligt. Associationsanalys (market basket) Hitta mönster för vilka produkter som säljs tillsammans
Tillämpningar inom handeln Response Modeling (klassificering) Vilka kunder kommer med störst sannolikhet beställa något från vår katalog Clustering / Collaborative Filtering Finns det grupper av kunder som har liknande beteende Netflix: 75% av det sedda materialet kommer är ett resultat av en rekommendation. LinkedIn: 50% av alla nya koppling kommer från "People You May Know". Market basket analysis Vilka varor säljs tillsammans Amazon: 35% av försäljningen drivs av rekommendationer. "Frequently Bought Together", and "Customers Who Bought This". Prediction / Forecasting (Klassificering, regression eller tidsserier) Försäljnings- och kampanjprognoser
The holy grail Givet tillräckligt mycket data och en specificerad frågeställning kommer en algoritm för dataanalys att hitta ett antal samband. Vi vill då förstås att dessa samband skall vara värdefulla! De skall inte vara triviala dvs. redan kända. De skall visa på verkliga och generella samband, inte slumpmässiga eller alltför specialiserade. De skall vara handlingsbara. Det krävs domänkunskap i all dataanalys!
Fish or Shark Data Mining Online Poker Ett exempel på concept description Ulf Johansson Cecilia Sönströd Computer Science Lab School of Business and Informatics University of Borås Sweden
Concept description Vi applicerade ett antal data mining tekniker på data insamlad från online poker. Det övergripande målet var att hitta tydliga mönster i de olika spelarnas strategier vilka förklarar vad som skiljer en skicklig (vinnande) spelare från en dålig (förlorande).
Concept description Blandade explorativa och prediktiva tekniker Använde endast publik data, dvs. ingen information om vilka två kort en viss spelare hade på handen i de olika givarna. Tusentals spelare alla med fler än 1000 händer
Poker Tracker HUD
Concept description Varje spelares strategi beskrevs med 23 variabler hämtade från den insamlade datan. Tabellen nedan visar medelvärden på några utvalda attribut för de 100 bästa spelarna och de 100 sämsta spelarna. VPIP PFR/VPIP CCPF AF Winner 31.88 54.71 12.15 1.97 Loser 66.23 15.01 49.63 0.96 Inringade värden är alla i procent dvs. de är enkla att tolka
90 Concept description 80 Vinnare Förlorare 70 60 CCPF 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90 100 VPIP
Concept description 6 Vinnare Förlorare 5 4 AF 3 2 1 0 10 20 30 40 50 60 70 80 90 100 VPIP
Concept description Exempel på en funnen regelmängd IF CCPF >= 28.7 THEN Loser [1740/220] IF W$WSF >= 41.1 THEN No_Loser [1201/141] IF VPIP_UTG <= 16.18 THEN No_Loser [495/87] IF CCPF >= 24.62 THEN Loser [254/65] IF W$WSF >= 40.06 THEN No_Loser [205/54] IF W$WSF >= 39.11 THEN No_Loser [173/44] IF Steal <= 6.62 THEN Loser [120/37] IF CBETT >= 12.78 THEN Loser [100/31] IF W$WSF >= 38.42 THEN No_Loser [94/27] IF 3Bet <= 4.3 THEN No_Loser [78/23] DEFAULT: No_Loser[434/211]
Är Poker ett skicklighetsspel? Har betydelse för lagstiftningen Olika lagar gäller för skicklighetsspel och hasardspel. Vår studie visade att det är möjligt att kategorisera spelare som vinnare och förlorare utifrån deras spelsätt, vilket användes som ett argument för att Poker måste ses som ett skicklighetsspel.
COMMONWEALTH OF PENNSYLVANIA vs WALTER WATKINS IN THE COURT OF COMMON PLEAS FOR THE 26TH JUDICIAL DISTRICT, COLUMBIA COUNTY BRANCH, PENNSYLVANIA CRIMINAL DIVISION CASE NO: 746 OF 2008 This court finds that Texas Hold em poker is a game where skill predominates over chance. Thus, it is not unlawful gambling under the Pennsylvania Crimes Code. However, academics and researchers have found scientific and statistical bases for the proposition that poker is a game of skill. For example, one excellent academic abstract reported the results of a statistical study of online poker in order to explain what signifies successful play. See Explaining Winning Poker A Data Mining Approach by Ulf Johansson, Cecilia Sonstrod, and Lars Niklasson, Proceeding of the 5th International Conference on Machine Learning and Applications (ICMLA 06). These Swedish researchers conducted a statistical analysis as to what skills make a successful Texas Hold em poker player.
DN 2011-02-23 Tre sakkunniga vittnen hördes på onsdagen i HD på begäran av arrangörernas advokater och alla var överens om att skickligheten är avgörande för om en spelare ska vinna. -Strategierna hos en spelare är avgörande för utgången. Den som är skicklig och fattar rätta besluten vinner. Skickligheten har stor betydelse, sade Ulf Johansson, forskare och universitetslektor i Borås. Han är expert på spelteori och pokerspel. Utländsk forskning stöder Johanssons slutsatser. Han får även medhåll av andra svenska experter. Tävlingen i Grebbestad byggde på skicklighet, sade Erik Broman, doktor i matematik vid Chalmers högskola i Göteborg. Han sade i HD att en spelare som låter slumpen styra i poker är en förlorare. - Det är endast när de första korten delas ut som slumpen har betydelse. Därefter är det hur spelaren agerar i olika situationer, satsar och synar, som har betydelse, sade han.
Är Poker ett skicklighetsspel? Högsta domstolens utslag innebar följande kompromiss: Poker är ett skicklighetsspel då det spelas i turneringsform. I kontantspel anses dock slumpen vara avgörande, dvs. då är Poker ett hasardspel. HD:s argumentation för sitt beslut tog utgångspunkt i att en turnering innebär att ett större antal händer kommer spelas, vilket ansågs krävas för att skickligheten skulle avgöra utfallet.
Data Mining och jakten på den perfekta golfsvingen GOLF DATA ANALYSIS (GOATS)
GOlf data analysis (GOATS) - Syfte Använda och utveckla tekniker från maskininlärning och visualisering för att analysera golfsvingen utifrån kvantitativ data om sving och bollflykt i kombination med höghastighetsvideo och 3D-data. Bidra till golfteorin Skapa ett ramverk för att analysera, visualisera och kombinera kvantitativ data och video. Vetenskapligt bidrag Algoritm- och metodutveckling för dataanalys Data Mining, Machine Learning, Visualisering
Projektet i Media
Den perfekta svingen?
Den perfekta svingen?
Fördelning av slagtyper Modellering av handicap 35% 40% Puttning Närspel Svårigheter HCP är ofta ej helt aktuellt eller rättvisande 10% 15% Utslag Järnspel HCP bygger på hela spelet dvs, utslag, järnspel, närspel och puttning. Vi samlar endast in data från järnspel och utslag. Fördelning HCP 102 49 6 11 14 <0 0-4 5-9 10-18 18-36
GOlf data analysis (GOATS) Initiala resultat (exempel) Triviala: Duktiga spelare slår längre Duktiga spelare har mindre spridning i sina slag Intressanta: Duktiga spelare har en flackare swing än sämre Spridning i sida är mer särskiljande än spridning i längd Vinkeln på bladet i träffen är en extremt viktig variabel Både i absoluta tal bör vara mindre än 2 grader och som ett mått på konsistens duktiga spelare levererar klubban med liknande bladvinkel varje gång, medan det kan skilja många grader för en sämre spelare.
Big data dagens buzzword #1? The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big data large pools of data that can be captured, communicated, aggregated, stored, and analyzed is now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldn t take place without data. Från preface av Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011.
Big data Då mängden data blir så stor att standardsystem inte klarar av att samla in, bearbeta och behandla den inom en rimlig tid, benämns dessa datamängder för big data. Att analysera och utnyttja dylika datamängder för att hitta intressanta mönster och utvinna värdefull information kallas big data analytics. Exakt vad som utgör big data varierar utifrån uppgifterna infrastrukturen ackumulerade erfarenheten hos företaget som äger datamängderna. Big data analytics kräver exceptionell teknik, för att på ett effektivt sätt kunna behandla data, inom givna tidsramar. Ett specifikt, och ofta förekommande problem, är det faktum att de datamängder som analyseras även växer snabbt. 90% av den data som existerar idag har skapats under de senaste två åren(ibm). Analysmetoderna måste därmed hantera detta svåra specialfall, typiskt genom att kunna uppdatera modeller och beslutsunderlag efter hand och i nära-realtid.
Data science
Data science
Några ytterligare exempel närmare handeln
Impact of Advertising Uppgiften är att uppskatta genomslag för reklam. Projekt ihop med NMA 2000-2006 Korttidsprognos 1-4 veckor framåt Långtidsprognos 1 år framåt Domäner som vi studerade var bilar, resor och dagligvaror
TOM och total investering för bilmärke X 1 0. 9 Effect 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0 1 0 0 1 0. 9 0. 8 0. 7 0. 6 Investment 0. 5 0. 4 0. 3 0. 2 0. 1 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0 1 0 0
TOM bilmärke Y long-term forecast (R 2 test = 0,7) 0.09 0.08 Prediction Actual 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 20 40 60 80 100 120 140 160
TOM bilmärke Z short-term (R 2 test = 0,9) 0.5 Prediction Actual 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0 10 20 30 40 50 60
Prediktiv modellering Analyser av de prediktiva modellerna kan, med hjälp av domänkunskap, leda till oväntade insikter Vad ser ni här? Modellen är byggd på vecka 1-100 medan vecka 101-150 är prognoser.
Försäljningsprognosticering Predicera försäljningen av dagligvaror i specifika butiker. Dagshorisont eller veckohorisont. Mänskliga experter (statistiker, marknadsanalytiker, inköpare etc.) är generellt sett väldigt duktiga att predicera normalförsäljningen. Mycket svårare vid speciella tillfällen som kampanjer, erbjudanden och större event, t.ex. storhelger, hockey VM etc. Mer kraftfulla (icke-linjära, modellfria etc.) tekniker än de som typiskt används ger ofta bättre prognoser.
Human expert vs. M5P-Ensemble (off-the-shelf) Felet för 168 artiklar sorterade efter felet i de manuella prognoserna
Generella tekniker specifika problem Pågående projekt: High-performance data mining for drug effect detection Big Data Analytics for Ensemble Online Learning BI of the future GOATS - Analyzing golf data
Lärdom: Generella tekniker specifika problem Projekt Data Syfte (exempel) Teknik DADEL Patientjournaler Biverkningsrapporter Kemisk-fysisk data Hitta okända biverkningar från läkemedel NLP Prediktiv modellering BOEL Kemisk-fysisk data Driftsdata från lastbilar in-silico modellering Reducera bränsleåtgång Prediktiv modellering FBI Kundregister Kampanjdata Försäljningsdata Förbättrade prognoser Kundinsikt Prediktiv modellering Klustring GOATS Swingdata från Trackman Video Hitta gemensamma faktorer för bra swingar Prediktiv modellering Concept description
Vad kan akademin bidra med? Nya utbildningar som svarar mot nya krav. Forskningsfronten ligger alltid före vad som finns tillgängligt i kommersiella produkter. Speciellt i omvälvande tider. Varje år publiceras mängder av nya metoder och algoritmer för dataanalys i tidsskrifter eller på konferenser. Det är väldigt svårt att bedöma vilka av alla dessa artiklar som är nydanande eller ens innebär en marginell förbättring mot existerande lösningar. Samtidigt finns det också viktiga framsteg och etablerade sanningar som knappt nått ut i kommersiella produkter
Vad kan akademin bidra med? Etablerad sanning: Att kombinera flera prediktiva modeller ger (nästan) alltid bättre prediktiv prestanda än enstaka modeller. Ett exempel på en ensembleteknik som har många trevliga egenskaper, inklusive att den kan köras i parallell och har visat sig leverera väldigt träffsäkra prognoser är Random forest. Random forest finns sedan ett par år tillbaka med i de flesta standardprogram för dataanalys, men originalartikeln kom så tidigt som 1995. Konceptet att kombinera många experter / prognoser är förvånansvärt framgångsrikt och robust. Läs gärna den mycket intressanta (och lättlästa) boken: The Signal and the Noise: Why So Many Predictions Fail-but Some Don't av Nate Silver ( The man who got the election right ).
Vad kan akademin bidra med? Ännu inte etablerad sanning: Med hjälp av ett matematiskt ramverk kallat conformal prediction (Vovk et al. 2004) kan man, under väldigt generella antaganden, (matematiskt) garantera att en prediktion, med en vald sannolikhet, är korrekt. Vår forskningsgrupp arbetar intensivt med conformal prediction. Vi tror att det kommer vara allmänt accepterat inom ett par år
Uppsummering - möjligheter Data mining kan stödja många delar av verksamheten med generiska tekniker Försäljningsprognoser Kundförståelse Segmentering Riktade utskick Social media Web 3.0 Semantic web (or the meaning of data), personalization, intelligent search and behavioral advertising among other things.
Uppsummering - fällor Big data analytics kräver exceptionella tekniker. Dålig datakvalitet Fel data Fel format (t.ex. för aggregerat) Otillräcklig infrastruktur För vaga frågeställningar Ej prioriterad verksamhet För låg kunskapsnivå
Att tänka på inför ett DM-projekt All relevant data måste finnas lagrad över en längre period Modellerna blir aldrig bättre än den data de baseras på Se till att rätt data används och att den är korrekt! Ta med personer från alla nivåer i verksamheten i projektet Hur bra är prognoserna idag Följ upp och spara prognoser för framtida jämförelser Prognosprojekt är inte en engångsföreteelse Det måste inte alltid vara avancerade DM lösningar
Tack för er uppmärksamhet! Frågor? ulf.johansson@hb.se Jag svarar gärna på frågor nu eller offline.