FÖRORD. Andreas Ek, Lund,

Relevanta dokument
Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

Projektmodell med kunskapshantering anpassad för Svenska Mässan Koncernen

Adding active and blended learning to an introductory mechanics course

Ett hållbart boende A sustainable living. Mikael Hassel. Handledare/ Supervisor. Examiner. Katarina Lundeberg/Fredric Benesch

En bild säger mer än tusen ord?

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

Understanding Innovation as an Approach to Increasing Customer Value in the Context of the Public Sector

Writing with context. Att skriva med sammanhang

KPMG Stockholm, 2 juni 2016

Goals for third cycle studies according to the Higher Education Ordinance of Sweden (Sw. "Högskoleförordningen")

Patientutbildning om diabetes En systematisk litteraturstudie

Cancersmärta ett folkhälsoproblem?

Methods to increase work-related activities within the curricula. S Nyberg and Pr U Edlund KTH SoTL 2017

COPENHAGEN Environmentally Committed Accountants

Second handbook of research on mathematics teaching and learning (NCTM)

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

!"#$ $ % &'(')*+* +, 012/( 3-0$ (4 (5 /& 0- -(4 (5 /& 06/7*)).)*+* 8 09

Företagsekonomi, allmän kurs. Business Administration, General Course. Business Administration until further notice

EVALUATION OF ADVANCED BIOSTATISTICS COURSE, part I

Course syllabus 1(7) School of Management and Economics. FEN305 Reg.No. EHVc 2005:6 Date of decision Course Code. Företag och Marknad I

Kursplan. FÖ3032 Redovisning och styrning av internationellt verksamma företag. 15 högskolepoäng, Avancerad nivå 1

Ökat personligt engagemang En studie om coachande förhållningssätt

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Questionnaire for visa applicants Appendix A

Signatursida följer/signature page follows

Stiftelsen Allmänna Barnhuset KARLSTADS UNIVERSITET

Arbetsplatsträff 8 mars 2011

Fortbildningsavdelningen för skolans internationalisering. Dossier 3. European Language Portfolio 16+ Europeisk språkportfolio 16+ English version

Measuring child participation in immunization registries: two national surveys, 2001

ASSESSMENT AND REMEDIATION FOR CHILDREN WITH SPECIAL EDUCATIONAL NEEDS:

FOI MEMO. Jonas Hallberg FOI Memo 5253

Supplemental Instruction (SI) - An effective tool to increase student success in your course

Självkörande bilar. Alvin Karlsson TE14A 9/3-2015

Examensarbete Introduk)on - Slutsatser Anne Håkansson annehak@kth.se Studierektor Examensarbeten ICT-skolan, KTH

Sociala medieströmmar metoder för analys och samarbete via nya medieformat. Pelle Snickars, Umeå universitet & Lars Degerstedt, Södertörns högskola

Kursplan. MT1051 3D CAD Grundläggande. 7,5 högskolepoäng, Grundnivå 1. 3D-CAD Basic Course

FÖRBÄTTRA DIN PREDIKTIVA MODELLERING MED MACHINE LEARNING I SAS ENTERPRISE MINER OSKAR ERIKSSON - ANALYSKONSULT

Performance culture in policing. Författare: Tevfik Refik Altonchi (Ph.d)

The Municipality of Ystad

Inkvarteringsstatistik. Göteborg & Co. Februari 2012

SOLAR LIGHT SOLUTION. Giving you the advantages of sunshine. Ningbo Green Light Energy Technology Co., Ltd.

denna del en poäng. 1. (Dugga 1.1) och v = (a) Beräkna u (2u 2u v) om u = . (1p) och som är parallell

Abstract. Pettersson, Karin, 2005: Kön och auktoritet i expertintervjuer. TeFa nr 43. Uppsala universitet. Uppsala.

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

Välkommen in på min hemsida. Som företagsnamnet antyder så sysslar jag med teknisk design och konstruktion i 3D cad.

Beijer Electronics AB 2000, MA00336A,

ENTERPRISE WITHOUT BORDERS Stockholmsmässan, 17 maj 2016

Workplan Food. Spring term 2016 Year 7. Name:


Introduktion till vetenskaplig metodik. Johan Åberg

PEC: European Science Teacher: Scientific Knowledge, Linguistic Skills and Digital Media

Läkemedelsverkets Farmakovigilansdag

Uppföljning av etiska krav

Kristina Säfsten. Kristina Säfsten JTH

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

Grammatiska metaforer i engelskan och hur de översätts till svenska. Lene Nordrum Engelska institutionen Göteborgs universitet

Att planera bort störningar

Quality-Driven Process for Requirements Elicitation: The Case of Architecture Driving Requirements

Estetisk- Filosofiska Fakulteten Svenska. Susanna Forsberg. En skola för alla. att hjälpa barn med ADHD och Aspergers syndrom. A School for Everyone

Viktig information för transmittrar med option /A1 Gold-Plated Diaphragm

Mathematical Cryptology (6hp)

Studenters erfarenheter av våld en studie om sambandet mellan erfarenheter av våld under uppväxten och i den vuxna relationen

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Senaste trenderna från testforskningen: Passar de industrin? Robert Feldt,

Protokoll Föreningsutskottet

Inkvarteringsstatistik. Göteborg & Co

Kundfokus Kunden och kundens behov är centrala i alla våra projekt

KOMMUNIKATIONS- OCH TOLKNINGS- PERSPEKTIV PÅ TILLBUD OCH OLYCKOR I KEMISKA INDUSTRIMILJÖER. Joel Rasmussen, Örebro universitet

Bridging the gap - state-of-the-art testing research, Explanea, and why you should care

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

2.1 Installation of driver using Internet Installation of driver from disk... 3

The annual evaluation of the Individual Study Plan for PhD students at the Department of Biochemistry and Biophysics

Beslutas att fastställa särskild behörighet för masterprogram enligt handling.

Module 6: Integrals and applications

Michael Q. Jones & Matt B. Pedersen University of Nevada Las Vegas

Mönster. Ulf Cederling Växjö University Slide 1

Biblioteket.se. A library project, not a web project. Daniel Andersson. Biblioteket.se. New Communication Channels in Libraries Budapest Nov 19, 2007

Organisering och ekonomistyrning. Professor Fredrik Nilsson Uppsala

En ny typ av statistikutbildning med komponenter från datainsamling till rapportering. Lars Rönnegård

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Genusstudier i Sverige

Magisterprogram i nationalekonomi med inriktning turism och evenemang 60 högskolepoäng

- den bredaste guiden om Mallorca på svenska! -

What Is Hyper-Threading and How Does It Improve Performance

Kursplan. JP1040 Japanska III: Språkfärdighet. 15 högskolepoäng, Grundnivå 1. Japanese III: Language Proficiency

LARS. Ett e-bokningssystem för skoldatorer.

Alias 1.0 Rollbaserad inloggning

SAMMANFATTNING AV SUMMARY OF

Styrteknik: Binära tal, talsystem och koder D3:1

FORSKNINGSKOMMUNIKATION OCH PUBLICERINGS- MÖNSTER INOM UTBILDNINGSVETENSKAP

Introduktion till vetenskaplig metodik. Johan Åberg

Det här med levels.?

Livskvalitet hos äldre: Att jämföra äpplen och päron?

Manhour analys EASA STI #17214

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

Att analysera företagsdynamik med registerdata (FAD) Martin Andersson

The present situation on the application of ICT in precision agriculture in Sweden

Transkript:

FÖRORD Detta examensarbete markerar slutet på min civilingenjörsutbildning och 5 fantastiska år i Lund och Berkeley. Projekt, som inleddes med storslagna ambitioner, har möjligen inte fullt ut infriats, men har trots allt varit otroligt lärorikt. Ett Stort tack till min handledare på Kairos Future, Tomas Larsson; troligtvis en av de mest mångsidigt begåvade person jag någonsin kommer att få glädjen att arbeta med. Tack också till Peter Pernemalm, Björn Ljung och Mats Lindgren på Kairos Future, för idéer, inspiration, intressanta diskussioner, och för att ni gjorde Stockholmsvintern 2009-2010 lite mindre kall och mörk. Jag vill också rikta tacksamhet till min handledare på LTH, Bertil Nilsson, för hjälp med idéer och struktur av rapporten, och slutligen ett varmt tack till min pappa, Ingvar Ek, som under hela min utbildning varit ett fantastiskt stöd och ständigt ställt upp med allt från språklig hjälp, till vägledning i frågor av mer avgörande karaktär; så också under detta projekt. Andreas Ek, Lund, 2010-08-15. i

SAMMANFATTNING Titel: Författare: Handledare: Lingvistisk-statistiska metoder för omvärldsanalys Andreas Ek Bertil Nilsson, Avdelningen för Produktionsekonomi, Lunds Tekniska Högskola, Lunds Universitet. Tomas Larsson, Kairos Future International AB (KFI) Bakgrund: Mål: Metod: Tillgängligheten på text i elektronisk form har exploderat, framförallt med utvecklingen av internet. Även beräkningskpaciteten hos datorer de senaste 20 åren har haft en otrolig utveckling. Detta tillsammans har gjort det möjligt att analysera textmassor på ett mycket enklare sätt. Kairos Future har i ett joint venture tillsammans med ITkonsultföretaget A3J under det senaste året utvecklat SoMe-analyzer, ett analysverktig för att bevaka vad som skrivs i den svenska bloggosfären, just med metoder från textuell data mining/lingvistiskstatistisk analys. Detta ville man utveckla ytterligare. Examensarbetets mål är att utveckla, testa, bedöma och implementera metoder för att samla in stora textmassor, extrahera värdefull information ur dessa, bl.a. bloggosfären, på ett automatiserat sätt, och åskådliggöra denna information på ett sådant sätt att det kan bidra till att upptäcka nya trender och/eller tendenser. Ett flertal olika vetenskapliga metoder har använts. Programkod har skrivits för att automatiserat samla in analysmaterial; litteraturstudier har gjorts för att skaffa kunskap inom relevanta delar, framförallt inom matematisk statistik; diverse statistiska metoder har använts för att få fram information ur analysmaterialet, t.ex. hierarkisk klustring, linjär regression, sannolikhetsbaserad ranking, etc. En hög grad av experimenterande och testande har präglat projektet och försöken att hitta rätt metoder för att få fram så intressant och relevant information som möjligt. Induktiva och deduktiva ansatser blandas, kvantitativ och kvalitativ data utnyttjas bådadera. Slutsatser: Den automatiska datainsamlingen verkar fungera väl. Sannolikhetsbaserad ranking av ord tillsammans med klustring fungerar bra för att beskriva de viktigaste dragen hos en textmassa jämfört med någon jämförelsetext. Regressionsmetoderna för trenddetektering fungerar men säger inte så skarpa saker. De behöver troligtvis appliceras på ett något mer avskiljt material för att säga mer intressanta saker. Avskiljning kan göras t.ex. genom att bara välja ut sammanhang som innehåller vissa ledord för det tema man är intresserad av, eller bara studera källor som handlar ii

om en viss kategori som sport, ekonomi eller teknik. Den enda trend som fångas upp när trenddetekteringsmetoderna används på hela svenska bloggosfären är den ökade engelskanvändningen i detta medium. I stort sett alla andra ord slås ut av de vanligaste engelska orden. Väldigt mycket mer finns att göra om man kombinerar metoderna med t.ex. olika artificiell intelligens-metoder, eller nätverksanalys. Nyckelord: Automatisering, Trend, Trenddetektering, Bloggosfär, Beräkningslingvistik, lingvistisk-statistisk, Textuell Data Mining, Eventdetektering. iii

ABSTRACT Title: Author: Supervisor: Textual Data Mining for Business Intelligence Andreas Ek Bertil Nilsson, Department of Production Management, Faculty of Engineering, Lund University. Tomas Larsson, Kairos Future International AB. Background: Goal: Method: The electronic availability of text masses has exploded, not in the least due to Internet. Computational capacity also, has had an extraordinary development. These things together have made it possible to analyze data in a much simpler way. During the last year, Kairos Future, in a joint venture with IT-consulting company A3J, has developed SoMeanalyzer, a tool to monitor and analyze the Swedish blogosphere using methods from textual data mining. This development was something the company wished to continue. The goal of this project is to develop, try out, evaluate and implement methods for collecting large amounts of textual data such as parts of the blogosphere, extract valuable information from this data in an automated way, and visualize this in a way that can contribute to the detection of new trends. A number of different scientific methods have been used. Programming code has been written to collect data in an automated way; literature studies have been done to acquire knowledge within relevant fields, mathematical statistics in particular; various statistical methods have been used to extract useful information from the data, e.g. hierarchical clustering, linear regression, probability based ranking, etc. A high degree of experimentation and testing has characterized the project and the attempts to find the best methods possible for finding interesting and relevant information. Inductive and deductive methods, as well as qualitative and quantitative data, are all used. Conclusions: The automated data collection seems to work well. Probability based ranking of words together with hierarchical clustering function well to describe the most important features of a text mass. The regression methods for trend detection are functioning, but does not provide much relevant and usefull information from the material that is being analyzed. They most likely need to be utilized on a more homogenous material to carry any sharper insights. Separation of text could be done for example by choosing only the contexts in which iv

certain key words appear, or by only studying sources from a particular category such as sports, economics, or technology. One sole trend is caught by the methods when applied to the whole swedish blogosphere: the increase in usage of the english language. Virtually all other words fall behind the most common english words. There is significantly more to be said and done within this field; especially if one combines the methods with e.g. artificial intelligence methods or network analysis. Keywords: Automated, Trend, Trend-detection, Blogosphere, Computational linguistics, Textual Data Mining, Event-detection. v