Funktioner i företags data mining-verktyg

Transkript

1 EXAMENSARBETE 2004:201 SHU Funktioner i företags data mining-verktyg LARS GUSTAVSSON PONTUS ÖSTERHOLM Samhällsvetenskapliga och ekonomiska utbildningar Institutionen för Industriell ekonomi och samhällsvetenskap Avdelningen för Systemvetenskap SYSTEMVETENSKAPLIGA PROGRAMMET C-NIVÅ Data- och Systemvetenskap Vetenskaplig handledare: Alf Töyrä 2004:201 ISSN: ISRN: LTU - SHU - EX / SE

2 Förord Förord Denna C-uppsats är skriven på Data och systemvetenskapliga sektionen vid Luleå tekniska universitet. Detta är det sista steget i vår strävan att nå kandidatexamen i Data och systemvetenskap. Vi vill börja med att tacka vår handledare Alf Töyrä för hans hjälp under hela uppsatsskrivandet. Vi vill även tacka alla andra lärare på institutionen som har läst vår uppsats till seminarier och som varit till stor nytta. Ett stort tack går även ut till de respondenter som vi fått intervjua, att de verkligen tog sig tid till att svara på våra frågor. Till sist vill vi ge ett Stort tack till Anna Lindström och Linda Öhman, för att de hjälpt oss att hitta referenser, korrekturläst vår uppsats och som varit ett tillförlitligt stöd genom hela arbetet. Mycket nöje.

3 Sammanfattning Sammanfattning I denna uppsats undersöker vi vilka funktioner som är implementerade i företags data mining-verktyg. De funktioner vi undersöker, är sådana vi identifierat i litteratur. I uppsatsen beskriver vi vad ett datalager är och vi beskriver även mer ingående vad data mining är. Fallstudien har skett genom kvalitativa djupintervjuer med respondenter från fyra olika organisationer, där respondenterna arbetar som expertanvändare av verktygen. Slutsatsen som vi kommit fram till är att verktygen inte har alla funktioner, som vi identifierat, implementerade och att funktionerna skiljer sig mycket mellan företagens verktyg.

4 Abstract Abstract In this essay we examine which functions are implemented in corporation s data mining tools. The functions we examine are those that we have identified in the literature. The essay describes what a Data Warehouse is and more thoroughly, it describes what Data Mining means. The case study has been conducted through qualitative deep-interview with respondents from four different organizations, where the respondents work as super users at their tool. Our conclusion is that the tools do not have all the identified functions implemented and that the functions differ a lot between the companies tools.

5 Innehållsförteckning 1 INLEDNING BAKGRUND FORSKNINGSFRÅGA SYFTE AVGRÄNSNINGAR 2 2 METOD FORSKNINGSANSATS FORSKNINGSMETOD FALLSTUDIE LITTERATURSTUDIER ANALYSMETOD 5 3 TEORI DATALAGER VAD KAN ETT DATALAGER GÖRA BEGRÄNSNINGAR HOS ETT DATALAGER DATA MINING DATA MININGS RÖTTER EN GENERELL SYN PÅ DATA MINING FÖRBEREDA INFRASTRUKTUREN MÖNSTERANALYS MÖNSTERTOLKNING EXPLOATERING TVÅ OLIKA STILAR AV DATA MINING RIKTAD DATA MINING ORIKTAD DATA MINING DATA MININGTEKNIKER KLASSIFICERING ASSOCIERING SEKVENS KLUSTER VISUALISERINGSMETODER ANVÄNDNING AV DATA MINING FÖR ATT LÖSA SPECIFIKA PROBLEM FÖRBÄTTRADE MARKNADSFÖRINGSKAMPANJER FÖRBÄTTRADE OPERATIONELLA PROCEDURER DATA MININGS PROCESSCYKEL IDENTIFIERA RÄTT AFFÄRSPROBLEM TRANSFORMERA DATA TILL HANDLINGSBARA RESULTAT ANVÄNDA RESULTATEN OLAP MOLAP INTELLIGENT DATA MINING ÖVERVAKAD INLÄRNING BEGRÄNSNINGAR HOS DATA MINING SAMMANFATTNING AV IDENTIFIERADE FUNKTIONER 22

6 Innehållsförteckning 4 EMPIRI FÖRETAGSPRESENTATION TULLVERKET NORRBOTTENS LÄNS LANDSTING SSAB OXELÖSUND FÖRENINGSSPARBANKEN SAMMANSTÄLLNING AV INTERVJUFRÅGOR STÖDJER VERKTYGET AD HOC FRÅGOR OCH HUR SKAPAS DESSA I SÅ FALL? HAR VERKTYGET STÖD FÖR ATT IDENTIFIERA MÖNSTER I DATALAGRET OCH KLARAR DET ATT GÖRA DETTA AUTOMATISKT? VAD HAR VERKTYGET FÖR VISUALISERINGSMÖJLIGHETER? VISAR VERKTYGET SANNOLIKHETEN ATT DESS ANALYSER STÄMMER? GÅR DET ATT SE HUR VERKTYGET ANVÄNDER MODELLER FÖR ATT GÖRA ANALYSER? FÖRBÄTTRAR VERKTYGET MODELLERNA ITERATIVT? KAN VERKTYGET GÖRA NÅGRA FÖRUTSÄGANDE ANALYSER? SAMMANFATTNINGSTABELL ÖVER VARJE FÖRETAGS VERKTYGS FUNKTIONER 28 5 ANALYS AD HOC IDENTIFIERA MÖNSTER GOD VISUALISERING SANNOLIKHET ÅSKÅDLIGGÖRA MODELLER FÖRBÄTTRA MODELLER ITERATIVT FÖRUTSÄGANDE ANALYSER 30 6 SLUTSATS OCH DISKUSSION SLUTSATS RESULTATDISKUSSION METODDISKUSSION FORTSATT FORSKNING 33 7 KÄLLFÖRTECKNING 34 Bilaga A - Ordlista

7 Inledning 1 Inledning Data mining och datalager är termer som allt fler företag kommer i kontakt med idag när de strävar efter att utveckla sin organisation. Det finns en mängd olika verktyg för att hantera datalager och göra analyser. Vi vill med denna uppsats undersöka, genom intervjuer, vilka funktioner som dagens företag har i sina data mining-verktyg, utan att ta hänsyn till vilket verktyg det är de använder. Vi har i denna uppsats försökt att använda oss av svensk terminologi. Data warehouse, som är ett vanligt begrepp bland data mining, har vi valt att kalla datalager efter svenska språknämndens rekommendation. I uppsatsen finns ett antal ord som är markerade med kursiv stil, detta är ord som vi har förklarat i en ordlista som återfinns i Bilaga A i slutet av uppsatsen 1.1 Bakgrund Datalager är något företag satsar mer och mer resurser på och som sprider sig snabbt i hela landet och i resten av världen. Data mining är en självklar aktivitet mot ett datalager och det finns en mängd olika data mining-verktyg med en mängd olika funktioner att använda när det är dags att analysera företagets lagrade data. (Marakas, 2003) Berry och Linoff (2000) poängterar att data mining i sig inte bara är ett verktyg, utan att data mining är en process som innehåller ett antal kritiska steg, där valet av verktyg endast är ett av dessa steg. Varför har då data mining ökat i popularitet de senaste åren? Berry och Linoff (2000) menar att detta är på grund av den explosionsartade ökningen av data som företag producerar idag. I mitten av 1900-talet hade inte ens de största företagen i världen mer än en knapp megabyte data sparat, i form av anteckningar, faktureringsböcker och arkiv. De största företagen i dag har databaser vars utrymme mäts i terrabytes. Detta är en data mängds ökning på över 100,000 gånger och den största anledningen till denna extrema ökning är det stegrande användandet av datorer och automatiska rutiner. För att kunna analysera dessa mängder data, har behovet av kraftiga analysverktyg, data mining-verktyg uppkommit. Även Marakas (2003) menar att den största anledningen till varför data mining har blivit ett såpass hett ämne som det faktiskt är idag, beror på den enorma ökning av företagsdata som företag idag producerar. Han menar även att människans brister i att hantera data, lockar företag till att använda data mining för att analysera sina enorma mängder data. Ytterligare en anledning till varför popularitet kring data mining ökar, anser Marakas vara att data mining-verktyg börjat arbeta mer självständigt och automatiserat, med bland annat lärande maskiner, som jobbar mycket billigare än den armé av högbetalda statistiker som det skulle behövas för att utföra liknande analyser. Dock är inte människans roll helt utspelad ännu, då vi fortfarande behövs för att avgöra om verktygens analyser och slutsatser är av relevans för företaget eller inte. Det finns som sagt en mängd olika verktyg från flera olika leverantörer och när ett företag väljer data mining-verktyg, finns mängder av aspekter att titta på. Verktygen skiljer sig ofta ganska mycket från varandra och varje verktyg har styrkor och svagheter. Styrkorna och svagheterna hos verktygen ligger oftast i - 1 -

8 Inledning vilka funktioner verktygen klarar av och hur verktyget använder sig av dessa. (Barry & Linoff, 2000) Tillverkare av data mining-verktyg har ofta ett stort antal funktioner, som köpare kan välja på, till sina verktyg. ( Med denna uppsats ska vi undersöka vilka funktioner som företag har valt implementera i sina data mining-verktyg. Anledningen till att vi vill undersöka detta är för att se hur pass långt företag kommit i sin utveckling av data mining. Vi anser även att genom denna undersökning kommer vi att få fram intressant information om vilka slags funktioner det är som är vanligast förekommande hos företag i deras data mining-verktyg. I litteraturen nämns inget om vilka funktioner som bör ingå i ett data miningverktyg, där beskrivs alla funktioner likvärdigt. Däremot nämns vissa funktioner mer frekvent i litteraturen. På grund av detta har vi valt att göra en undersökning på de funktioner som är mest förekommande i den litteratur vi har läst. 1.2 Forskningsfråga Vilka data mining-funktioner har företag implementerade? 1.3 Syfte Syftet med denna undersökning är att ge en bild över data mining-funktioner, som företag har valt att implementera. Vi ska ur litteratur identifiera ett antal funktioner som ett data mining verktyg kan ha. Vi ska även undersöka om de identifierade funktionerna finns implementerade hos företag, samt undersöka om funktionerna faktiskt används av företagen. Denna uppsats riktas mot företag som idag använder data mining och vill utveckla den verksamheten, samt företag som planerar ett införande av data mining i sin verksamhet. Vi anser de har nytta av denna uppsats då den ger en god beskrivning av data mining och dess möjligheter, samt att den visar på vilka funktioner företag valt att implementera och vilka av dessa som används. Vi anser också att uppsatsen är intressant för alla som är intresserade av att lära sig om data mining. 1.4 Avgränsningar Vi har valt att avgränsa oss till ett antal funktioner som vi identifierat i teorin och vi kommer inte att titta på andra eventuella funktioner som företagens verktyg kan komma att ha. Vi avgränsar från att ta hänsyn till vilket data mining-verktyg företagen använder sig av. Vår empiriska avgränsning är att företagen ska använda verktygen dagligen och att respondenterna är insatta i sitt företags alla användningsområden för verktyget

9 Metod 2 Metod För att på ett systematiserat sätt undersöka verkligheten använder vi oss utav en metod. Här nedan kommer vi beskriva den metod vi valt att använda oss av i denna undersökning. Detta är för att läsaren ska kunna bedöma våra resultat och själva utvärdera trovärdigheten. Den hantverksmässiga sidan av uppsatsskrivande kallas för metod. Det är den lära om vilka instrument som kan användas för att samla in den behövda informationen. Information som samlas in brukar kallas för data eller fakta. De data som har samlats in kallas för empiri, som kommer ifrån det grekiska ordet emperia, där peria betyder försök eller prövning. (Halvorsen, 1992) 2.1 Forskningsansats Det finns ett antal olika undersökningsmetoder, explorativa, deskriptiva och hypotesprövande (Patel, 2003). Vi anser att den metod som passar bäst för denna uppsats bäst är den deskriptiva undersökningsmetoden. Med en deskriptiv metod innebär det att undersökningen är beskrivande (Ibid.). I vårt fall kommer vi först att beskriva teorin och sedan kommer vi med hjälp av fallstudier beskriva verkligheten. I en deskriptiv undersökning kan de framtagna beskrivningarna vara dåtida eller nutida. Här begränsas undersökningen till de delar av ämnet som är av intresse. Beskrivningarna av de olika aspekterna är väldigt noggranna och grundliga, där varje aspekt kan beskrivas var för sig, men det kan även förekomma beskrivningar av samband av olika aspekter. Vid deskriptiva studier förekommer oftast endast en datainsamlingsmetod (Patel, 2003). 2.2 Forskningsmetod Ordet kvalitativ står för kvaliteter, det är alltså egenskaper eller framträdande drag hos något. När en kvalitativ metod används handlar det om att det är något som ska karaktäriseras. I kvalitativa metoder spelar mätningen en underordnad roll, med det menas att siffror inte är det väsentliga för analysen. Detta är vad som skiljer kvalitativa metoder från kvantitativa. Dock är det svårt att göra en undersökning helt utan att använda mängdavvikelser, vilket gör att det ofta förekommer även i kvalitativa undersökningar. I kvalitativa metoder är det texten som är det centrala uttryckssättet och arbetsmaterialet. Detta kan tyckas underligt då fallstudier sker på miljöer, personer och händelser, men eftersom att det är forskarens anteckningar i form av text som ligger till grund för den fortsatta analysen, är det texten som blir det centrala. Ett kännetecken för kvalitativ metod är dess flexibilitet. I en kvantitativ undersökning får inte frågeställning ändras mellan intervjuerna, då anses det att resultaten inte går att jämföra. Däremot i en kvalitativ undersökning är det inga problem att formulera om frågorna mellan intervjuerna, då samma frågeställning anses kunnas tolkas olika av olika personer och att det är helt i sin ordning att utnyttja information som erhålls av en tillfällighet. Intervjuerna i sig är även flexibla, då många följdfrågor kan ställas med grund av de svar som erhålls av de förberedda frågorna. (Repstad, 1999) - 3 -

10 Metod Vi har valt att använda oss av en kvalitativ metod, då vi anser att det är lämpligt eftersom det är egenskaper hos data mining-verktyg, i form av funktioner, som vi ska undersöka och ordet kvalitativ betyder just egenskaper och framträdande drag. Kvalitativ metod passar oss också eftersom att vi kommer att skriva ut våra intervjuer ord för ord. Det är sedan denna text som kommer att ligga till grund för vår analys. Vi tror också att en flexibel forskningsmetod kommer att passa oss bra, då vi tror att vi kommer få mycket ny information under fallstudierna, som kan leda till att vi får möjligheten att modifiera vårt intervjuunderlag Fallstudie Fallstudie innebär att undersökningen görs på en mindre avgränsad grupp. Här kan ett fall vara en individ, en grupp individer, en organisation eller en situation. Det är fritt att studera fler än ett fall om så önskas. Det viktiga här är att få en så täckande information som möjligt och ett bra helhetsperspektiv av fallet. (Patel, 2003) Vi har planerat att genomföra våra fallstudier med kvalitativa intervjuer. Vi ska börja med att ta kontakt med ett antal företag för vilka vi kommer att förklara vad vår uppsats handlar om och att vi vill intervjua personer som dagligen jobbar med data mining och är väl insatta i företagets verktyg. Vi ska välja företag med olika inriktning och olika mål med sin verksamhet för att försöka få en bred bild av hur data mining används inom olika organisationer. När vi fått kontakt med lämpliga personer på företagen, skickar vi ut en mall till dem om vad intervjun skall handla om och mer exakt vad vi vill ha svar på. Anledningen att vi valt kvalitativa intervjuer är för att vi anser att det passar vår uppsats bäst, då vi har en kvalitativ undersökningsmetod. Vi ska spela in intervjuerna på band, för att vi ska kunna koncentrerar oss på vad respondenterna säger och därigenom kunna ställa följdfrågor när det är något extra intressant eller något som vi inte förstår. Vi kommer sedan att skriva ut intervjuerna, i ett ordbehandlingsprogram, i stort sätt ordagrant för att sedan kunna analysera dem. Intervjuerna ska leda till att vi får insikt i hur de jobbar med data mining-verktygen, samt vilka av de funktioner som vi identifierat i litteraturen som verktygen har. I en kvalitativ intervju är temat för intervjun klart och det handlar om att styra respondenten i rätt riktning, dock ska inte ett strikt schema användas för intervjun. Följdfrågor bör ställas för att uppmuntra respondenten att tänka igenom och fördjupa sig i sina svar. Det bör inte vara fasta frågor med fast ordning, utan intervjun bör i största möjliga mån likna ett samtal. Det ska finnas möjlighet att ändra intervjumallen under och efter intervjuer, då olika respondenter kan ha olika möjlighet att svara på frågor. Det är rekommenderat att intervjuhandledningen endast är som en minneslapp för den som intervjuar, för att denne ska komma ihåg alla ämnen som ska tas upp i intervjun. (Repstad, 1999) Litteraturstudier Den litteratur vi har grundat våra teorier på är till stor del hämtad från Luleå tekniska universitets bibliotek. Vi har sökt i LIBRIS och Lucia som är två av bibliotekets databaser. De sökord som vi använt är data mining, data - 4 -

11 Metod warehouse, datalager, dataanalys. Vi har även använt oss av Internet för att slå upp vissa ord som förekommer i litteraturen, men som ej förklaras där Analysmetod Analysen av material kan utföras på olika sätt och det finns inga generella rekommendationer eller regler, utan det viktiga är att klassifikation och analys av materialet sker utifrån frågeställningen. Om problemställning är vag, kan det vara bra att börja med att klassificera materialet efter olika ämnen som förekommer. Det kan göras genom att markera viktiga saker i marginalen och därefter klippa i materialet och sortera upp urklippen efter de olika ämnena. Med hjälp av dataprogram kan textavsnitten få olika kodningar för att på det sättet sortera upp dem, och på det sättet undvika att klippa i papper och sortera dem på det viset. (Repstad, 1999) Vi kommer att utgå från denna metod för att analysera våra insamlade data. Vi kommer att skriva ut våra nerskrivna intervjuer och sedan färgkoda dessa med överstrykningspennor för att sortera dem efter ämne (olika färger på olika ämnen), i vårat fall, efter funktioner. När vi är klara med färgkodningen kommer vi att sammanställa alla ämnen genom att klippa och klistra i ordbehandlaren och på det sättet sortera intervjumaterialet efter funktionerna. Vi kommer sedan att koppla intervjumaterialet till det teoriavsnitt där funktionerna finns beskrivna. Anledningen till att vi valde denna analysmetod är att vi kommer att skriva ut våra intervjuer och därigenom är det lätt att sitta och färgmarkera på papperet de olika ämnena. Vi tror att denna metod passar oss, då våra intervjuer kommer att bli ganska långa och vi räknar med att få med mycket material i dem som inte kommer att vara relevant för vår forskningsfråga. Genom denna analysmetod räknar vi med att lätt kunna sortera ut viktig information ur vårat intervjumaterial

12 Teori 3 Teori I detta avsnitt av uppsatsen beskrivs först datalager och sedan data mining. Denna teori kommer att ligga som grund för det vi redovisar i empiriavsnittet senare i uppsatsen. 3.1 Datalager Ett datalager är en logisk sammanhållen datamängd, som är avsett för analys och som speglar flera tidsperioder genom att data regelbundet hämtas från andra register. Det kan även vara en generell kunskapsbank för en organisation, men det vanligaste är att det är avgränsat till ett fåtal av organisationens verksamhetsområden. (Peter Söderström, 1997) A data warehouse is a copy of transaction data specifically structured for querying, analysis, and reporting. (Marakas, 2003, s.5) Med hjälp av citatet ovan vill Marakas (2003) försöka förklara datalager genom att förtydliga det. För det första säger citatet att ett datalager är en databas som innehåller kopior av transaktionsdata. Det säger även att datalager är en egen separat databas som inte hör ihop med organisationens övriga informationssystem eller databaser. Marakas menar även att data i ett datalager är statiskt, när kopian av en transaktion lagts in i datalagret kommer den inte att ändras däri. Detta ger att ett datalager i allmänhet inte blir mindre, utan har en tendens att växa till enorma proportioner. Ur definitionen ovan kan även utläsas att data i ett datalager är specifikt strukturerat, det innebär att datalagret inte tar hänsyn till hur data lagrats i databaserna som det kopierats ifrån, utan det har sitt eget specifika sätt att lagra data på och sin egen struktur. Till sist går det även att i citatet utläsa syftet med datalager: frågeställning, analys och rapportering. Datalager blir en central repertoar för all organisatorisk data som anses värdefull för utforskning av nya relationer, trender och gömda värden. Datalagret blir den vanligaste fokuseringspunkten för alla som arbetar inom organisationen och som vill lära sig mer om sin verksamhet. (Ibid.) Det finns inga regler som säger vilken struktur ett datalager ska ha, dock ska datalagret följa en struktur och inte blanda flera strukturer. Ett datalager kan alltså vara normaliserat eller icke normaliserat. Det kan även innehålla en relationsdatabas, multidimensionell databas, hierarkisk databas eller en objektdatabas. (Marakas, 2003) Vad kan ett datalager göra Datalager minskar tiden från det att något händer i verksamheten, till att det rapporteras för ledningen. Ett exempel är säljrapporter som skrivs ut en gång i månaden, de brukar vara ledningen till handa ungefär en vecka efter månadsslutet. Detta gör att beslut måste fattas på gammal historisk data. Med ett datalager kan rapporter ges dagligen och det ger beslutsfattare möjlighet att hitta lösningar som de annars hade missat. (Marakas, 2003) - 6 -

13 Teori De olika databaser i en organisation kan ses som ett pussel. Om endast en del av företag är intressant räcker det med att titta på en pusselbit, men om det är en helhetsbild av företaget som är av intresse, måste ett sätt att sammanfoga alla pusselbitar hittas. Med ett datalager sammanfogas alla pusselbitar från företagets olika delar såsom, order, betalning, materialplanering, försäljning och reklamationer. Med ett datalager kan en kunds väg spåras genom hela företaget. Tack vare detta kan ledningen ställa en fråga som: Finns det något samband mellan vart en kund köper en produkt och hur mycket pengar som går åt i supportkostnad? (Marakas, 2003) Eftersom ett datalager innehåller data från flera år bakåt kan man lätt se historiska trender och med hjälp av det förutse framtida trender. Framförallt säsongsbetonade varor är lätt att urskilja med hjälp av ett datalager. (Ibid.) I vanliga informationssystem kan det vara krångligt att dra ut rapporter, ofta krävs att en programmerare skriver ett program för att skapa den rapport som efterfrågas och det kan ta flera veckor. Med ett datalager kan slutanvändaren själv skapa dessa rapporter, eftersom att den själv kan skapa egna ad hoc frågor som ställs mot datalagret. (Ibid.) Begränsningar hos ett datalager Ett datalager kan skapa rapporter på data som finns i datalagret, men det kan aldrig skapa data. Om till exempel den geografiska spridningen av försäljning av en produkt önskar men adresserna över vart produkterna sålts inte finns lagrade, kan ett datalager inte lösa problemet, om inte ett sätt att hämta in den nödvändiga data in i datalagret finns. Ett datalager kan upptäcka att data är smutsig, men för att rätta till det måste det ändras i företagets informationssystem eftersom att det är där som datafångsten sker. (Marakas, 2003) 3.2 Data mining Enligt Marakas (2003) är datalager i dag ett hett ämne för många företag och det hetaste ämnet inom datalager är data mining. Nästan alla företag idag som har ett datalager anser att data mining är framtiden för deras datalager. Data mining är en process för att ur rådata hitta, för organisationen, viktiga affärsrelationer, så kallade mönster. Dessa affärsrelationer ska sedan användas för att förbättra verksamheten, ge stöd åt kritiska beslut och ge organisationen ett övertag gentemot konkurrenter. Ett datalager har flera olika fördelar, men det används som bäst när det används till data mining. Visst kan det tyckas att data mining bara är ett häftigt modeord för dataanalys, men enligt Marakas är det mer än så. Han vill med de två nedanstående punkterna, kortfattat visa på vad data mining egentligen är. (Ibid.) En samling kraftfulla dataanalysverktyg som ska användas för att analysera extremt stora datamängder. Rätt använt kan det hitta mönster och information som ligger djupt begravd i organisationens datalager Data mining är inte ett verktyg, utan en samling av flera verktyg som kan kombineras för att få ut mest möjliga mängd information ur en samling data - 7 -

14 Teori Barry och Linoff (2000) menar att data mining taget ur ett affärssammanhang, handlar om att extrahera meningsfulla mönster och regler ur stora kvantiteter information. De trycker på att detta är väldigt användbart i alla områden där det finns stora mängder data och någonting värt att lära sig. För ett företag är något värt att lära sig, om den resulterade kunskapen är värd mer pengar än vad det kostar att upptäcka den. (Ibid.) 3.3 Data Minings rötter Många tror att data mining är något nytt, men innebörden av ordet har funnits sedan 60-talet då det kallades statistisk analys. De tre företag som då ledde vägen var SAS Institute Inc., SPSS Inc. och IBM, och dessa tre är idag fortfarande väldigt aktiva inom området. Från början innebar statistisk analys rutinerna Correlation, Regression, Chi-square och Cross-tabulation. Dessa tekniker finns fortfarande kvar i dagens moderna data mining. Men data mining har blivit mycket mer än dessa fyra statistiska funktioner, i dag är det mer insiktsfulla och kraftfulla verktyg som kan förklara och förutse data. På 80-talet kom mer kraftfulla tekniker såsom heuristisk resonering och neurala nätverk, dessa kan ses som början till Artificiell Intelligens (AI). (Marakas, 2003) 3.4 En generell syn på data mining Marakas (2003) beskriver fyra övergripande punkter som handlar om data mining. Det börjar med förberedelse av data och slutar med exploatering av nyvunnen information Förbereda infrastrukturen Det första som ska göras är att identifiera och förbereda infrastrukturen. Det är i infrastrukturen som data mining-aktiviteten kommer att ske. Den ska minst bestå av en hårdvaruplattform, en databashanterare och ett eller flera data miningverktyg. Hårdvaruplattformen är ytterst sällan samma som används till organisationens övriga verksamhet. När data flyttas till mining-plattformen förbereds ofta data, det kan handla om att integrera data från olika delar av organisationens verksamhet. En metadatakatalog skapas som innehåller information om data, var det kom ifrån, hur gammalt det är, hur det inhämtades, vilka enheter det representerar och så vidare. Metadatakatalogen fungerar lite som en innehållsförteckning över vad för data som finns. (Marakas, 2003) Mönsteranalys När ett antal mönster har hittats måste varje mönster analyseras. De olika mönstren kommer att ha olika statistiska starkheter och ju starkare de är, desto större är chansen att exploatering av dem kan vara gynnsam, i Figur 1 illustreras hur olika starka relationer kan vara. Om ett mönster inte är starkt idag men blir starkare över tiden, är det en indikation på en framtida förändring och kan hjälpa till att förutse ändringar i marknadsläget. Dock går det inte att bara se till styrkan, ett mönster kan också representera en falsk positiv. Det innebär att den starka relationen mellan två variabler bara är slumpmässig och därför meningslös. Detta uppkommer på grund av att det ofta är stora datamängder som utforskas och att - 8 -

15 Teori viss slumpmässighet då är ofrånkomligt. En tredje aspekt att titta på är om en relation har någon affärssignifikans. Även om det är en stark relation och den inte är en falsk positiv kan det hända att den inte har någon affärssignifikans vilket gör att det inte finns någon användning av relationen. (Marakas, 2003) En perfekt relation En stark relation En svag relation Figur 1: Olika starka relationer (Marakas, 2003, s.24) Mönstertolkning När analyssteget är klart ska mönstren tolkas, utan tolkning är mönstren värdelösa. För att tolka mönstren behövs både teknisk och affärsmässig expertis. Saker som bör tänkas på vid mönstertolkning är: (Marakas, 2003) trender inom verksamheten säsongsbetoning av verksamheten målgruppen vilken mönstret kan appliceras på mönstrets styrka och möjligheten att använda det som grund för framtida behov storleken på målgruppen som mönstret passar in på mönstrets geografiska utsträckning och dess tidsfaktorer såsom dag, vecka, månad och år Exploatering När de övriga faserna är klara är det dags att exploatera mönstret, alltså att verksamheten använder den information de fått på bästa sett. Detta kan göras på olika sätt: (Marakas, 2003) Specifika säljerbjudanden Paketera produkter för att attrahera den tilltänkta målgruppen Introducera nya produkter - 9 -

16 Teori Prissätta produkter på ett ovanligt sätt Marknadsföring riktad mot en viss målgrupp Marakas (2003) menar att det är möjligt att förbereda verksamheten på framtida omställningar baserat på antagen tillväxt hos ett mönster som idag är svagt men beräknas växa med tiden. Det går även se vilka målgrupper och vilka slags människor som hör ihop med olika mönster och därigenom kunna styra sin reklam mot rätt människor. (Ibid.) 3.5 Två olika stilar av data mining Det finns två olika stilar inom data mining. Riktad data mining är en stil där arbetet sker uppifrån och ner, det vill säga att arbetet sker utifrån ett resultat och därefter försöker analytikern förstå varför resultatet blev som det blev. Denna form av data mining kallas ofta för förutsägande modellering, där användaren exakt vet vad det är som ska förutses. Den andra stilen, oriktad data mining, arbetar från andra hållet, det vill säga att arbetet sker genom ett nerifrån och upp tillvägagångssätt. Här får data tala för sig själv. Oriktad data mining hittar mönster i data och låter sedan användaren välja om dessa mönster är relevanta eller inte. Dock används oftas inte bara den ena eller den andra stilen, utan oftast används en blandning av bägge stilar. (Berry & Linoff, 2000) Riktad data mining Riktad data mining arbetar genom en såkallad svart låda modell. Detta illustreras i Figur 2, där pilarna som går mot lådan (som symboliserar data mining-verktyget) är inmatade värden och pilen som kommer ut från lådan är resultatet av de inmatade värdena som analyserats. Här bryr sig användaren inte alls om hur modellen arbetar utan denne är endast intresserad av att få fram bästa möjliga resultat. Detta tillvägagångssätt används när användaren vet vad denna letar efter och när denna kan rikta data mining processen mot ett visst mål. (Berry & Linoff, 2000) Figur 2: Svart låda (Barry & Linoff, 2000, s.41) I vanliga fall används redan tidigare kända exempel, detta skulle kunna vara tänkbara personer till en marknadsföringskampanj som redan har fått ett visst erbjudande. Till dessa personer kopplas den insamlade informationen till okända exempel, såsom som eventuella kandidater som ännu inte blivit kontaktade. En sådan modell kallas för en förutsägande modell då den gör förutsägelser, baserade på historisk data, på okända exempel. Dessa modeller kan svara på frågor som: (Ibid.) Vem kommer troligtvis att svara på vårt nästa erbjudande, baserat på historiken av tidigare marknadsföringskampanjer?

17 Teori Vilken är den bästa medicinska behandlingen, baserat på tidigare erfarenheter? Vilken maskin kommer troligtvis att haverera nästa gång? Vilka kunder kommer troligtvis att sluta vara kunder hos oss, under de närmaste sex månaderna? Vilka transaktioner är troligtvis bedrägerier, baserat på tidigare kända bedrägerier? Förutseende modeller använder sig av erfarenhet för att få fram ett relevant resultat. Med mer relevanta data och med högre erfarenhet fås ett mer trovärdigt resultat. Genom att använda sig av data där resultatet redan är känt, kan modellen tränas för att få fram mer korrekta resultat. Däremot blir aldrig en förutseende modell med 100 % exakthet. De är ändå användningsfulla för beslutsfattaren inom ett företag, när denna ska ta beslut som grundas på stora mängder information. (Berry & Linoff, 2000) Oriktad data mining Då förutsägande modeller används vid sökningar efter kända problem, används oriktad data mining till att upptäcka helt mönster i data mängderna. Dessa mönster bidrar till ny insikt i data organisationen har lagrat och kan visa sig vara väldigt informativa. (Berry & Linoff, 2000) Figur 3: Semitransparent låda (Barry & Linoff, 2000, s.41) Berry och Linoff (2000) har valt att presentera denna form av data mining genom en semitransparent låda, som återges i Figur 3. Till skillnad från den svarta lådan, har användaren här möjligheten att se hur data mining-verktyget arbetar dess val av modeller, algoritmer, variabler, hur beräkningarna sker och så vidare - för att komma fram till ett resultat. Här menar de att det viktiga är att få reda på vad som händer, men dessutom att titta på hur modellen kommer fram till detta. Fast även om data mining-verktyget kan finna mönster och lägga fram beslutsförslag till lösningar, behövs fortfarande människans omdöme för att tolka om resultat är av relevans eller inte. (Ibid.) Advanced algorithms can find patterns in the data, but only people can determine whether the patterns have any significance and what the patters might mean (Barry & Linoff, 2000, s.40) 3.6 Data miningtekniker Medan populariteten för data mining växer med en extrem hastighet, har utvecklingen av nya och innovativa tekniker för att gräva i datalager ökat kraftigt. Tekniker ska inte förväxlas med funktioner, då funktioner använder sig av en eller flera tekniker för att utföra sitt syfte. Många av de nya teknikerna är förbättringar

18 Teori av äldre tekniker, medan några kan klassas som helt innovativa. Men på grund av bristen av standarder bland leverantörer, blir nya innovativa tekniker ofta begränsade till en specifik leverantörs plattform och kan därför inte klassas som en standard inom data mining. På grund av detta har Marakas (2003) valt att sammanfatta de vanligaste teknikerna som används idag, och undvikit specifika leverantörstekniker, till fyra grundläggande teknikkategorier: Klassificering, Association, Sekvens och Kluster. (Ibid.) Klassificering I klassificeringstekniken ingår data mining-processer vars syfte är att identifiera regler som definierar om ett objekt eller en händelse tillhör en särskild klass av data. Denna kategori av tekniker går, enligt Marakas (2003), att bredast appliceras på olika typer av affärsproblem. Tekniken innefattar två subprocesser: (Ibid.) byggandet av en modell klassificeringsförutsägning Anta att ett företag, till exempel, vill titta på tidigare obestämda köpemönster i en kundbas. En klassificeringsmodell kan då skapas för att kartlägga de olika kundernas attribut (ålder, kön, inkomst och så vidare) med olika produktköp (till exempel, lyxiga bilar, konsertbiljetter, kläder och så vidare). Tilldelad ett antal förutsägande attribut, kan modellen användas mot en lista med kunder för att fastställa vilka kunder som troligtvis kommer att göra att speciellt köp den närmaste månaden. Klassificeringsmodellen kan då i fortsättningen användas mot den aktuella kundbasen för att generera listor med lämpliga kunder för riktad reklam genom till exempel, e-postutskick eller telefonförsäljning. Genom att bygga och förbättra en förutsägande modell över affärsproblemet, kan data mining-klassificeringsmetoder oftast ge användbara och väldigt exakta svar på frågor. (Marakas, 2003) Marakas (2003) menar att det generellt kan sägas att klassificeringsmetoder utvecklar modeller som bygger på vanliga OM - SÅ regler. Då tanken är att få insikt i möjliga medlemmar av en klass, är standard ansatsen vid själva klassificering att titta på om medlemmen uppfyller de regler som är förbestämda och därefter placera in medlemmen i en av tre möjliga subklasser: (Ibid.) Exakt regel: Denna regel tillåter inga undantag, det vill säga, varje objekt (i detta fall, varje medlem) uppfyller den regel som är satt till 100 procent i klassen. Denna ansats skapar den högsta sannolikhetsklassen av medlemmar 100 procent sannolikhet. Stark regel: Med denna regel är några undantag, inom en viss radie av regeln, godkända. Den här ansatsen skapar en subklass med en stark sannolikhet medlemmar procent sannolikhet. Sannolikhetsregel: Denna regel hänför villkorliga sannolikheter till sannolikheten. Denna ansats skapar en mätbar sannolikhets subklass av medlemmar X-procent sannolikhet

19 Teori Associering Associeringsteknik, eller länkanalys som det även kallas, genomsöker alla poster eller transaktioner från operationella system efter mönster som med stor sannolikhet kommer att repeteras. Denna teknik resulterar till utvecklingen av en associationsalgoritm som kopplar samman en serie händelser eller föremål med en annan serie händelser eller föremål. De mönster som härleds fram genom algoritmen kan komma att beskrivas som, till exempel, Åttiotre procent av alla poster som innehåller artiklarna A, B och C, innehåller även artiklarna D och E. Den procentsats som presenteras i associeringsalgoritmens resultat, kan beskrivas som regelns trovärdighetsfaktor. (Marakas, 2003) Market basket analysis är ett vanligt exempel på en associeringsmetod. Det är en metod där en detaljhandlare kan gräva i data som genererats av kassaapparaterna i sin detaljhandel. Genom att analysera och jämföra kundens varukorg, det vill säga de varor kunden har betalat för i kassan, med hundratusentals andra varukorgar, kan detaljhandlaren finna samband mellan olika produkter. Exempel på detta skulle kunna vara en regel som säger: Sextionio procent av kunder som handlar läsk, handlar även chips. Denna typ av information kan vara användbar vid placeringen av produkter för att på det sättet få kunden att köpa mer. Detaljhandlaren skulle kunna, från exemplet ovan, sätta upp en chipsreklamskylt vid läskhyllan för att få fler kunder att stoppa ner en chipspåse i varukorgen. Även fast vissa produkter, såsom mjölk och yoghurt, har en självklar samhörighet, kan den data mining-teknik användas mycket lyckat för att hitta mindre självklara, dock inte mindre användningsfulla, samband mellan produkter. (Marakas, 2003) Sekvens Denna teknik går ut på att förutse något genom att titta på olika tidigare händelser. Till exempel att när föräldrar hyr en barnfilm, kommer de inom två veckor handla leksaker som har anknytning till filmen. Detta betyder att en reklambladskampanj för leksaker med anknytning till film borde vara kopplad till en hyrvideobutiks kundlista. Från en typisk sekvensanalys bör ett mönster med händelser, som sker innan en speciell händelse som är av intresse, fås fram. (Marakas, 2003) Kluster Ibland kan det vara väldigt svårt, eller rent av omöjligt att identifiera parametrar för klassificering av data. I sådana fall kan klustermetoden användas. Det handlar om att gruppera data baserat på dess likheter. Ett exempel är om analys av kreditkortsköp vill göras. Med klustermetoden kan då framkomma att affärskort ofta används för att köpa måltider på veckodagarna som har medelkostnad större än 250 dollar och att privata kreditkort som används till måltider oftast används på helgerna och medelkostnaden ligger på 175 dollar, samt att en flaska vin ingår i notan i sextiofem procent av fallen. (Marakas, 2003) 3.7 Visualiseringsmetoder Visualisering innebär att numerisk data konverteras till enkla och överskådliga bilder. Rådata kan komma från en mängd olika källor såsom undersökningar, sattelitfoton, datasimuleringar och så vidare. Rådata av detta slag är ofta

20 Teori svårtolkat på grund av mängden data, att den ofta är komplex och mönstren ej är tydliga. Den mänskliga hjärnan kan hantera stora mängder visuell information och känna igen miljoner olika fysiska objekt. Visualiseringstekniker används för att hjälpa till vid analysering av komplex data genom att koppla fysiska egenskaper till data och därigenom dra nytta av det mänskliga visualiseringssystemet. Exempel på sätt att visualisera data är ljuseffekter, färger, riktningar, storlek, avstånd mellan objekt, hastighet och genomskinlighet. (Marakas, 2003) Även Dunham (2003) påpekar att visualisering är väldigt viktigt för att användaren ska kunna tolka resultat och data som mining-verktyget presenterar, ett exempel på hur detta kan illustreras visas i Figur 4. I vissa fall kan syftet med data mining helt enkelt vara att på ett enkelt sätt beskriva vad som händer i en komplicerad databas på ett sätt som ökar förståelsen för folket, produkterna eller processerna som producerade data från första början. En bra beskrivning av ett beteende leder ofta till en förklaring av "beteendet". Visualisering är ett kraftfullt sätt att beskriva data mining. Det kan vara svårt att hitta meningsfulla visualiseringar, men ibland kan det vara guld värt, då människor är extremt bra på att utvinna "fakta" ur visuella scener. (Barry & Linoff, 2000) Figur 4: Visualisering av ett 3D-stapeldiagram (Marakas, 2003, s.99) 3.8 Användning av data mining för att lösa specifika problem En stor styrka hos data mining är dess breda urval av metodologier som kan appliceras på en problemgrupp. Eftersom data mining är en självklar aktivitet mot ett datalager, är data minings användningsområde till störst del att arbeta mot samtliga datalager, data marts och beslutsstödsområden inom industrier som försäljning, tillverkning, telekommunikation, transportering, försäkring och sjukvård. Inom försäljningsområdet kan data mining användas till att hitta nya försäljningstrender eller till exempel planera investeringsstrategier. Det finns även möjligheter att använda data mining vid förbättring av marknads

Visa mer