Smart data - nyckeln till kundförståelse + =
Ulf Johansson Professor i datavetenskap Tekniska högskolan, Jönköping University Swedish Institute of Innovative Retailing (SIIR), Högskolan i Borås
Baseball - MLB 30 lag 162 matcher för varje lag per säsong Individuell lagsport Diskret och inte kontinuerlig Tillräckligt många tillfällen (t.ex. som slagman) för att det skall vara meningsfullt att analysera data och statistik för enskilda spelare
Crunching the numbers
Före moneyball Spelare värderades främst av mänskliga experter (scouter) utifrån fysiska egenskaper. Analys av data skedde oftast i efterhand och med relativt primitiva verktyg. Även då dataanalys användes fokuserades det generellt på fel indikatorer. Stor enighet kring vad som skall värderas dvs. alla vill ha samma spelare. Efter moneyball Spelare värderas i större utsträckning utifrån objektiva mått som speglar deras prestationer hittills. Avancerade analyser, t.ex. avseende hur olika kategorier av spelares prestanda förändras med åldern. Indikatorer som empiriskt visat sig ha större betydelse för ett lags förmåga att vinna prioriteras. Relativt stor enighet kring kriterier, men stor vilja till ytterligare utveckling. Oakland ifrågasatte etablerade sanningar om vilka spelartyper och strategier som gör att ett lag vinner matcher Hela idén var att hitta spelare som var undervärderade av marknaden, utifrån att marknaden inte värderade rätt egenskaper.
Moneyball andra sporter? NHL teams starting to pay attention to statistical analysis: Feschuk (2013) Hockey, for a myriad of reasons, lags behind the other major sports in its reliance on empirical data, but it s hardly blind to the possibilities. The NBA and NFL have largely embraced the merits of math-heavy perspectives on their games. The Globe and mail, Oct. 2014 Maple Leafs bet big on Big Data with analytics partnership NHL.com, Feb. 2015 Analytics, not statistics, driving NHL evolution Linked in, Dec. 2016 How Big Data Analytics is revolutionizing sports especially Ice Hockey
Moneyball andra sporter? How computer analysts took over at Britain's top football clubs Manchester City has 11 people analysing players' data, but will a tech-driven statistical approach squeeze out intuition? Tim Lewis, The Observer Sunday 9 March 2014 How Big Data and Analytics Are Changing Football Today, all Premier League football stadiums in the UK are equipped with a set of digital cameras that track every player on the pitch. Ten data points are collected every second for each of the 22 players on the pitch, generating 1.4 million data points per game. Bernhard Marr, July 2015
Sverige? Russian Startup Sells Moneyball System to New York Islanders (Blomberg, Nov. 2016) A Russian startup selling an analytics platform for ice hockey has signed teams from the National Hockey League and Sweden s top division, in a sign that big-data Moneyball"-style management is advancing in one of its last unconquered major professional sports. The New York Islanders, currently last in the NHL s Eastern Metropolitan division, and the Swedish Hockey League s Vaxjo Lakers, currently in seventh place, have both turned to Iceberg to improve performance, the Russian company said at a news conference in Moscow on Thursday.
Med 10 miljarder människor blir det 3.52 TB per person
Big data The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big data large pools of data that can be captured, communicated, aggregated, stored, and analyzed is now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldn t take place without data. Från preface av Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011. 90% av den data som existerar idag har skapats under de senaste två åren(ibm).
Dataanalys data science Typiska tillämpningar inom handeln: Response Modeling Vilka kunder kommer med störst sannolikhet beställa något från vår katalog Clustering / Collaborative Filtering Finns det grupper av kunder som har liknande beteende Netflix: 75% av det sedda materialet är ett resultat av en rekommendation. LinkedIn: 50% av alla nya koppling kommer från People You May Know. Market basket analysis Vilka varor säljs tillsammans Amazon: 35% av försäljningen drivs av rekommendationer. "Frequently Bought Together", and "Customers Who Bought This". Prediction / Forecasting Försäljnings- och kampanjprognoser Churn: vilka kunder är på väg att lämna oss
Framtidens Business Intelligence Forskningsprojekt finansierat av Handels Utvecklingsråd (numera Handelsrådet) 2013-2015 Dataanalys för handeln Företagsperspektiv Försäljningsprognosticering och kampanjanalys Kundinsikt och individualiserade erbjudanden Projektet kombinerar expertis inom data mining, high performance computing och marknadsföring Slutrapport finns på handelsrådets hemsida
Framtidens Business Intelligence Slutsats #1: Dataanalys är centralt för svensk handels konkurrenskraft I handeln har begrepp som big data och data analytics i många fall ersatt traditionella CRM-program och business intelligence som det huvudsakliga verktyget för ökad kundförståelse. Trenderna pekar på att samtidigt som e-handeln kommer att likriktas sker en utveckling mot alltmer personaliserade sortiment och erbjudanden, vilka styrs av beteenden och köphistorik.
Dataanalys Dataanalysens betydelse, liksom förståelsen för dess nytta har ökat under projektets tid. Tydligt i e-handelstrender för 2016 (Faring, 2015)* Kunskap blir kung: Alla prognoser pekar på en markant ökning av e- handeln under 2016, men bara de företag som förmår förbättra sin förståelse av hur kunderna agerar och tänker ( Vad letar de efter, hur letar de, vad vill de ha och vad vill de inte ha? ) kommer få ta del av ökningen. Djupare analyser av kundbeteende kommer därmed att bli vanligare under 2016, men bara hos vinnarna. * Faring, W. F. 2015, 15 tunga e-handelstrender 2016, www.handelstrender.se
Dataanalys Anpassad automatik: En uppenbar trend är personanpassade landningssidor, samt skräddarsydda erbjudanden, rabatter och individanpassade budskap till kunderna inne i butiken. Nyckeln är dock att samtliga dessa insatser baseras på kundens egna beteenden och preferenser, dvs. kräver en god kundkännedom - på individnivå. Fler algoritmer: Personalisering och anpassning av erbjudanden och kommunikation kräver att de mönster och beteenden som definierar kunden kan identifieras. Detta blir därmed en av de största utmaningarna för e-handeln, vilket innebär att algoritmer kommer att spela en nyckelroll i arbetet för allt fler under 2016.
Big data Då mängden data blir så stor att standardsystem inte klarar av att samla in, bearbeta och behandla den inom en rimlig tid, benämns dessa datamängder för big data. Att analysera och utnyttja dylika datamängder för att hitta intressanta mönster och utvinna värdefull information kallas big data analytics. Exakt vad som utgör big data varierar utifrån uppgifterna infrastrukturen ackumulerade erfarenheten hos företaget som äger datamängderna. Big data analytics kräver exceptionell teknik, för att på ett effektivt sätt kunna behandla data, inom givna tidsramar.
Big data => Smart data Slutsats #2: Fokus bör flyttas från big data till mer fundamentala och principiellt viktiga problem ( smart data ) inom dataanalys Inte ens de största svenska e-handelsföretagens kunddatabaser utgör big data i betydelsen att typiska big data -lösningar i form av olika MapReduce verktyg, exempelvis Hadoop, krävs. Det är därmed andra faktorer än förmågan att snabbt samla in, lagra och bearbeta stora mängder data som avgör om svenska handelsföretag skall vara framgångsrika i sin dataanalys. En viktig konsekvens av detta är att dataanalys inte kräver gigantiska investeringar i hårdvara, analysverktyg och konsulttjänster och i och med det blir tillgängligt även för mindre aktörer.
Generiska tekniker Slutsats #3: Det avgörande är inte att välja rätt algoritm eller system, utan att ha tillräcklig kunskap om möjligheterna för att kunna identifiera lämpliga användningsområden i den egna verksamheten Algoritmerna är generella trots att problemen är specifika Prediktiv modellering är då en algoritm utifrån tillgänglig historisk data skapar en modell som senare används för förutsägelser (prediktioner) eller förklaringar För handeln kan prediktiv modellering utnyttjas för exempelvis: responsmodellering (utveckla sin marknadsföring baserat på den respons man tidigare fått), churn-prediction (förutsägelse av vilka som kommer att sluta vara kunder och hur de ska behandlas) försäljningsprognoser kundvärde Det är viktigt att inse att det tekniskt är exakt samma metoder och algoritmer som används för alla dessa (och många andra liknande) uppgifter.
Project Data Purpose (sample) Technique Partners DATAMINE 7 MSEK (3.3 MSEK) Web CRM Robot journalism Personalization Traditional AI NLP Predictive modeling Hallpressen Infomaker Pdb DADEL 19 MSEK Patient records ADE reports Chem-phys. data Find adverse drug effects NLP Predictive modeling KI WHO AstraZeneca DDI 12 MSEK (6 MSEK) Click-streams CRM Predict churn Estimate lifetime value Attribution Predictive modeling Ellos Hemtex Vinga of Sweden DASTARD 4.0 MSEK Chem-phys. data Maintenance data from trucks Drug discovery Reduce fuel consumption Predictive modeling AstraZeneca Scania FBI 2.0 MSEK CRM Campaign data Sales data Improve forecasts Consumer insights Predictive modeling Clustering ICA Willys Pericles 9.6 M Space data Digital art Anomaly detection Digital preservation Predictive modeling Clustering Tate museum Space Applications Services GOATS 2.4 MSEK Swing data from Trackman Video Find key indicators of swing quality Support teaching online Predictive modeling Concept description PGA instructors Golf schools Golf clubs
Data är värdefullt Slutsats #4: Att säkerställa tillgång till data av hög kvalitet är avgörande för all dataanalys. Data är hårdvaluta och det är kvaliteten på den som är avgörande, inte förmågan att samla in och bearbeta stora mängder Mycket av den data som företagen saknar är information som kunden av olika anledningar kan uppfatta som känslig eller helt enkelt inte vill dela med sig av. Med nya lagar och regler kring hantering av data bör företag acceptera att kunden de facto äger sin egen data. I förlängningen kan detta innebära en marknad där kunder säljer sin personifierade data till olika företag. Företag bör i det läget inte stirra sig blinda på att det ger upphov till kostnader som inte finns i dag, utan snarare se de möjligheter som så högkvalitativ data skulle innebära. Specifikt ger detta förstås tillgång till individualiserad data som är helt omöjlig att komma åt i dag, samtidigt som det antagligen stärker relationen mellan företaget och kunden.
Paradoxen villighet att dela med sig Många delar idag med sig frivilligt av personlig information via sociala medier och medlemskort
Samtidigt allt mer skeptiska I en undersökning i Storbritannien betecknar 69% av respondenterna varumärkens hantering av personlig data som creepy Strong (2015)
Brand attachment The uncanny valley of marketing Initialt stärker personifierad reklam kundens relation till varumärket men efter en viss gräns blir närheten obehaglig Level of Personalization Strong (2015)
Cute or Creepy? Slutsats #5: När företagen når den gräns där analyser och prediktioner berättar mer om kunden än den själv vet (eller vill att företagen ska veta) uppfattas det som creepy snarare än cute Trots alla i huvudsak positiva reaktioner kring personifierad reklam finns även en motreaktion. När företagen når den gräns där analyser och prediktioner berättar mer om kunden än den själv vet (eller vill att företagen ska veta) uppfattas den som creepy (obehaglig) snarare än cute (trevlig)
Cute or creepy in marketing Gränsen för vad som uppfattas som cute eller creepy verkar vara beroende av personliga faktorer hos kunden, men även av såväl den uppfattade som den önskade relationen till företaget. Med rätt typ av motiverande incitament anpassade till kundsegmentet bör företagen ha möjlighet att förflytta denna gräns. Detta föreslås även vara möjligt genom att låta kunden se den egna nyttan av de analyser som görs av befintlig data. Involvera kunden i datainsamlingen snarare än att hitta fler sätt att samla in information dolt
Sammanfattning av projektet FBI Handeln är digital och måste studeras utifrån det perspektivet Dataanalys är centralt för svensk handels konkurrenskraft Fokus bör flyttas från big data till smart data Det svåra är inte att välja rätt algoritm eller system, utan att förstå möjligheterna Data är hårdvaluta och det är kvaliteten på den som är avgörande Det finns en gräns där dataanalys uppfattas som creepy snarare än cute Det finns ett stort behov av akademisk forskning riktad mot dataanalys i handelsdomänen. Vi kommer den närmaste tiden fokusera på: Algoritmer Kundägd data Cute or creepy Conformal prediction
Handelns digitalisering Vad kan akademin bidra med? Handeln är digital -> forskning kring handeln måste beakta den digitala dimensionen. SIIR vill gå i bräschen för detta paradigmskifte. Forskning och utveckling i samproduktion mellan akademin och företag SIIR har en företagspool där kontinuerlig och tät samverkan sker Pågående projekt med fokus datadriven innovation. Ellos, Hemtex och Vinga of Sweden som partners Nya utbildningar som svarar mot nya krav: Digital Business: Masterprogram på Jönköping International Business School, startat 2016 Management av digital handel: Masterprogram på Högskolan i Borås, startar 2017 Nationell företagsforskarskola i digital handel (under utveckling, planerad start Q1 2018) Samarbete mellan Högskolan i Borås och Jönköping University Finansiering av KK-stiftelsen Industridoktorander i företagsekonomi och datavetenskap/informatik
Handelns digitalisering Vad kan akademin bidra med? Forskningsfronten ligger alltid före vad som finns tillgängligt i kommersiella produkter. Varje år publiceras mängder av nya metoder och algoritmer för dataanalys i tidskrifter eller på konferenser. Det är väldigt svårt att bedöma vilka av alla dessa artiklar som är nydanande eller ens innebär en marginell förbättring mot existerande lösningar. Samtidigt finns det också viktiga framsteg och etablerade sanningar som knappt nått ut i kommersiella produkter
Handelns digitalisering Vad kan akademin bidra med? Etablerad sanning: Att kombinera flera prediktiva modeller ger (nästan) alltid bättre prediktiv prestanda än enstaka modeller. Ett exempel på en ensembleteknik som har många trevliga egenskaper, inklusive att den kan köras i parallell och har visat sig leverera väldigt träffsäkra prognoser är Random forest. Random forest finns sedan ett par år tillbaka med i de flesta standardprogram för dataanalys, men originalartikeln kom så tidigt som 1995. Konceptet att kombinera många experter / prognoser är förvånansvärt framgångsrikt och robust. Läs gärna den mycket intressanta (och lättlästa) boken: The Signal and the Noise: Why So Many Predictions Fail-but Some Don't av Nate Silver ( The man who got the election right ).
Handelns digitalisering Vad kan akademin bidra med? Ännu inte etablerad sanning: Med hjälp av ett matematiskt ramverk kallat conformal prediction (Vovk et al. 2004) kan man, under väldigt generella antaganden, (matematiskt) garantera att en prediktion, med en vald sannolikhet, är korrekt. Detta skapar unika möjligheter att räkna på olika utfall vid beslutsfattande Vår forskningsgrupp arbetar intensivt med conformal prediction Partners: Royal Holloway, Frederick University, Stockholms universitet, AstraZeneca, Scania Vi tror att det kommer vara allmänt accepterat (och finnas tillgängligt i kommersiell programvara) inom ett par år
Tack för er uppmärksamhet! Frågor? ulf.johansson@ju.se Jag svarar gärna på frågor nu eller offline Är du intresserad av att samarbeta med SIIR? Gå till