Syfte & Mål. Klustring Associationsregler

Relevanta dokument
The Trout Truth is Out In There

FÖRBÄTTRA DIN PREDIKTIVA MODELLERING MED MACHINE LEARNING I SAS ENTERPRISE MINER OSKAR ERIKSSON - ANALYSKONSULT

Concept description genom klustring

Bridging the gap - state-of-the-art testing research, Explanea, and why you should care

Välkommen till Workshop Forskning och utveckling för den moderna digitala handeln

Webbregistrering pa kurs och termin

The sexy job in the next 10 years will be statisticians, said Hal Varian, chief economist at Google. And I m not kidding.

Webbreg öppen: 26/ /

PEC: European Science Teacher: Scientific Knowledge, Linguistic Skills and Digital Media

Genusstudier i Sverige

Tentamen i kurserna Beräkningsmodeller (TDA181/INN110) och Grundläggande Datalogi (TDA180)

Vad säger forskningen om programmering som kunskapsinnehåll? Karin Stolpe, föreståndare NATDID liu.se/natdid

Elektronisk patientjournal

En ny typ av statistikutbildning med komponenter från datainsamling till rapportering. Lars Rönnegård

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

FMSF 30/35/40 Matematisk statistik Grundläggande sannolikhetsteori Sannolikhetsteori och diskret matematik

Anställningsprofil för universitetslektor i matematikämnets didaktik

Svensk forskning näst bäst i klassen?

Skrivträning som fördjupar den naturvetenskapliga förståelsen Pelger, Susanne

Not everything that counts can be counted, and not everything that can be counted counts. William Bruce Cameron

Registerforskning Oktober 2018, Stockholm City Conference Centre. Möjligheter med Artificiell Intelligens inom registerforskningen

Performance culture in policing. Författare: Tevfik Refik Altonchi (Ph.d)

Hur fattar samhället beslut när forskarna är oeniga?

Scalable Dynamic Analysis of Binary Code

Internationella Engelska Gymnasiet

Just another WordPress site

Immigration Studera. Studera - Universitet. Ange att du vill anmäla dig. Ange att du vill anmäla dig till en kurs. Kurs.

Immigration Studera. Studera - Universitet. Ange att du vill anmäla dig. Ange att du vill anmäla dig till en kurs. Kurs. Typ av kurs.

Att mäta samverkansamverkansenkät

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

x 2 2(x + 2), f(x) = by utilizing the guidance given by asymptotes and stationary points. γ : 8xy x 2 y 3 = 12 x + 3

EVALUATION OF ADVANCED BIOSTATISTICS COURSE, part I

Kristina Säfsten. Kristina Säfsten JTH

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Teenage Brain Development

8 < x 1 + x 2 x 3 = 1, x 1 +2x 2 + x 4 = 0, x 1 +2x 3 + x 4 = 2. x 1 2x 12 1A är inverterbar, och bestäm i så fall dess invers.

Uttagning för D21E och H21E

AI, musik & PLCGalgoritmen

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

EXPERT SURVEY OF THE NEWS MEDIA

The 3D Classroom gör det komplexa enklare att förstå!

Kompetensbas som stödjer Agenda hur utvecklar vi den?

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Pitchingmönster - Taktikanalys

Module 6: Integrals and applications

Drivkrafter bakom spel och spelberoende flykt, spänning och förhoppningar

Maria Fransson. Handledare: Daniel Jönsson, Odont. Dr

En skola på vetenskaplig grund gränsöverskridande mellan akademi, lärarutbildning och skolpraktik

KTH Royal Institute of Technology

Data mining. Data mining Skillnaden mellan observationella och experimentella data

Smart data - nyckeln till kundförståelse + =

The Academic Career Path - choices and chances ULRIKKE VOSS

Analyser av svenskt näringsliv

Avveckla patentsystemet - Går det?

12.6 Heat equation, Wave equation

Marika Edoff. En intervju av Peter Du Rietz 22 oktober 2008

Patientutbildning om diabetes En systematisk litteraturstudie

Tentamen MMG610 Diskret Matematik, GU

Supplemental Instruction (SI) - An effective tool to increase student success in your course

D-vitamin. Näringsrekommendationer

Isometries of the plane

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

Statistik Lars Valter

Taktik/spelanalys. Snabba uppspel i Svenska Basketligan. Juan Alonso

Flervariabel Analys för Civilingenjörsutbildning i datateknik

75% seminarium 26 februari 2018, LUX-huset LIC-FORSKARSKOLAN COMMUNICATE SCIENCE IN SCHOOL, CSIS

KAU DAU. SND nätverk, 4 dec DAU 4 dec 2018 KARLSTADS UNIVERSITET

Design för användbarhet Designexempel, hur tänkte man vid designen?

Vässa kraven och förbättra samarbetet med hjälp av Behaviour Driven Development Anna Fallqvist Eriksson

Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

Algoritmer och maskininlärning

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

GeoGebra in a School Development Project Mathematics Education as a Learning System

Calculate check digits according to the modulus-11 method

Matematiksatsning Stödinsatser. Matematiksatsning Stödinsatser. Bakgrund OECD. Undersökningar på olika nivåer. Vad kan observeras

LARS. Ett e-bokningssystem för skoldatorer.

Preschool Kindergarten

Questionnaire for visa applicants Appendix A

Högskolan i Gävle. Kompetensförsörjare inom ett av framtidens stora område. Fredrik Ekberg

Mis/trusting Open Access JUTTA

Vårdförbundets medlemmars syn på Journal via nätet - En första titt på enkätresultaten

AI OCH VIKTEN AV ETT KUND- OCH DESIGNDRIVET PERSPEKTIV TOMMY JARNEMARK TELIA SVERIGE

Problem som kan uppkomma vid registrering av ansökan

PORTSECURITY IN SÖLVESBORG

[HUR DU ANVÄNDER PAPP] Papp är det program som vi nyttjar för att lotta turneringar och se resultat.

DRÖMRESA TILL BOSTON

Kvalitativa metoder II

Är färre och större universitet alltid bättre?

Fallstudier. ü Ett teoretiskt ramverk kan vägleda i datainsamligen och analysen

Att stödja starka elever genom kreativ matte.

Vad är utbildning för hållbar utveckling, UHU?

Regressionstestning teori och praktik

Ljud och video på webbsidor

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Verksamhetsplan 2013

Arbetsplatsträff 8 mars 2011

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Transkript:

Ulf Johansson PhD i datavetenskap, LiTH, 2007. Professor i datavetenskap, 2015 Arbetar på Högskolan i Borås och Tekniska Högskolan i Jönköping Forskar inom data science främst på algoritmer och metoder för dataanalys ( data mining ) Driver flera externfinansierade forskningsprojekt med företagspartners från olika branscher

Data science

Läget i dag Stora datamängder genereras överallt Dessa analyseras i ökad utsträckning med kraftfulla algoritmer för att hitta värdefulla samband Business intelligence ++ Verksamhetskritiskt för många företag inom diverse olika branscher Många olika programvaror tillgängliga från företag som Google, Adobe, IBM, Microsoft, SAS institute, SPSS etc. Även fri programvara, t.ex. Weka, R, SciKit-Learn

Syfte & Mål Jag tror (och argumenterar här för) att metoder från data science kan användas för många nya syften, exempelvis för att analysera forskningsdata i en mängd domäner Prediktiv modellering Klassificering och regression Klustring Associationsregler Några populära men ändå tankeväckande exempel på dataanalys

Disclaimer I pågående forskningsprojekt analyserar vi exempelvis: molekyler som del av drug discovery hos AZ patientjournaler för att identifiera biverkningar e-handelsföretags kunddatabaser för ökad konsumentinsikt men även t.ex. i syfte att minska antalet returer. hur förarens respektive lastbilens konfiguration påverkar bränsleförbrukningen hos Scanialastbilar

Fish or Shark Data Mining Online Poker Ett exempel på concept description Ulf Johansson Cecilia Sönströd Computer Science Lab School of Business and Informatics University of Borås Sweden

Concept description Vi applicerade ett antal data mining tekniker på data insamlad från online-poker. Det övergripande målet var att hitta tydliga mönster i de olika spelarnas strategier vilka förklarar vad som skiljer en skicklig (vinnande) spelare från en dålig (förlorande).

Concept description Blandade explorativa och prediktiva tekniker Använde endast publik data, dvs. ingen information om vilka två kort en viss spelare hade på handen i de olika givarna. Tusentals spelare alla med fler än 1000 händer

Concept description Varje spelares strategi beskrevs med 23 variabler hämtade från den insamlade datan. Tabellen nedan visar medelvärden på några utvalda attribut för de 100 bästa spelarna och de 100 sämsta spelarna. VPIP PFR/VPIP CCPF AF Winner 31.88 54.71 12.15 1.97 Loser 66.23 15.01 49.63 0.96 Inringade värden är alla i procent dvs. de är enkla att tolka

90 Concept description 80 Vinnare Förlorare 70 60 CCPF 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90 100 VPIP

Concept description Exempel på en funnen regelmängd IF CCPF >= 28.7 THEN Loser [1740/220] IF W$WSF >= 41.1 THEN No_Loser [1201/141] IF VPIP_UTG <= 16.18 THEN No_Loser [495/87] IF CCPF >= 24.62 THEN Loser [254/65] IF W$WSF >= 40.06 THEN No_Loser [205/54] IF W$WSF >= 39.11 THEN No_Loser [173/44] IF Steal <= 6.62 THEN Loser [120/37] IF CBETT >= 12.78 THEN Loser [100/31] IF W$WSF >= 38.42 THEN No_Loser [94/27] IF 3Bet <= 4.3 THEN No_Loser [78/23] DEFAULT: No_Loser[434/211]

Är Poker ett skicklighetsspel? Har betydelse för lagstiftningen Olika lagar gäller för skicklighetsspel och hasardspel. Vår studie visade att det är möjligt att kategorisera spelare som vinnare och förlorare utifrån deras spelsätt, vilket användes som ett argument för att Poker måste ses som ett skicklighetsspel.

COMMONWEALTH OF PENNSYLVANIA vs WALTER WATKINS IN THE COURT OF COMMON PLEAS FOR THE 26TH JUDICIAL DISTRICT, COLUMBIA COUNTY BRANCH, PENNSYLVANIA CRIMINAL DIVISION CASE NO: 746 OF 2008 This court finds that Texas Hold em poker is a game where skill predominates over chance. Thus, it is not unlawful gambling under the Pennsylvania Crimes Code. However, academics and researchers have found scientific and statistical bases for the proposition that poker is a game of skill. For example, one excellent academic abstract reported the results of a statistical study of online poker in order to explain what signifies successful play. See Explaining Winning Poker A Data Mining Approach by Ulf Johansson, Cecilia Sonstrod, and Lars Niklasson, Proceeding of the 5th International Conference on Machine Learning and Applications (ICMLA 06). These Swedish researchers conducted a statistical analysis as to what skills make a successful Texas Hold em poker player.

DN 2011-02-23 Tre sakkunniga vittnen hördes på onsdagen i HD på begäran av arrangörernas advokater och alla var överens om att skickligheten är avgörande för om en spelare ska vinna. -Strategierna hos en spelare är avgörande för utgången. Den som är skicklig och fattar rätta besluten vinner. Skickligheten har stor betydelse, sade Ulf Johansson, forskare och universitetslektor i Borås. Han är expert på spelteori och pokerspel. Utländsk forskning stöder Johanssons slutsatser. Han får även medhåll av andra svenska experter. Tävlingen i Grebbestad byggde på skicklighet, sade Erik Broman, doktor i matematik vid Chalmers högskola i Göteborg. Han sade i HD att en spelare som låter slumpen styra i poker är en förlorare. - Det är endast när de första korten delas ut som slumpen har betydelse. Därefter är det hur spelaren agerar i olika situationer, satsar och synar, som har betydelse, sade han.

Är Poker ett skicklighetsspel? Högsta domstolens utslag innebar följande kompromiss: Poker är ett skicklighetsspel då det spelas i turneringsform. I kontantspel anses dock slumpen vara avgörande, dvs. då är Poker ett hasardspel. HD:s argumentation för sitt beslut tog utgångspunkt i att en turnering innebär att ett större antal händer kommer spelas, vilket ansågs krävas för att skickligheten skulle avgöra utfallet.

Data Mining och jakten på den perfekta golfsvingen G OLF D ATA ANALY SIS (G OATS )

GOATS- Syfte Använda och utveckla tekniker från maskininlärning och visualisering för att analysera golfsvingen utifrån kvantitativ data om sving och bollflykt i kombination med höghastighetsvideo och 3D-data. Bidra till golfteorin Skapa ett ramverk för att analysera, visualisera och kombinera kvantitativ data och video. Vetenskapligt bidrag Algoritm- och metodutveckling för dataanalys Data Mining, Machine Learning, Visualisering

Projektet i Media

GOATS Initiala resultat (exempel) Triviala: Duktiga spelare slår längre Intressanta: Duktiga spelare har en flackare swing än sämre Spridning i sida är mer särskiljande än spridning i längd Vinkeln på bladet i träffen, relativt mållinjen, är en extremt viktig variabel Både i absoluta tal bör vara mindre än 3 grader och som ett mått på konsistens duktiga spelare levererar klubban med liknande bladvinkel varje gång, medan det kan skilja många grader för en sämre spelare. Konsistens är allmänt den mest särskiljande egenskapen för duktiga spelare En majoritet av amatörgolfare slår inte bollen tillräckligt bra för att den fundamentala teorin för golfswingar skall gälla

Ett exempel utanför akademin

Baseball - MLB 30 lag 162 matcher för varje lag per säsong Individuell lagsport Diskret och inte kontinuerlig Tillräckligt många tillfällen (t.ex. som slagman) för att det skall vara meningsfullt att analysera data och statistik för enskilda spelare

Baseball - MLB

Moneyball Moneyball: The Art of Winning an Unfair Game Bok av Michael Lewis, om laget Oakland Athletics och deras GM Billy Beane. Oakland använde en analytisk och databaserad strategi för att skapa ett starkt lag trots en relativt sett mycket låg budget. En film Moneyball med Brad Pitt som Billy Beane hade stor succé 2011.

Oakland ifrågasatte etablerade sanningar om vilka spelartyper och strategier som gör att ett lag vinner matcher, och skapade ett lag som med US$41 miljoner i lönekostnader var konkurrenskraftigt mot t.ex. New York Yankees, med löner över US$125 miljoner samma säsong. Hela idén var att hitta spelare som var undervärderade av marknaden, utifrån att marknaden inte värderade rätt egenskaper. Oakland nådde med denna strategi slutspelet 2002 och 2003.