ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET? JOHAN FRID, HUMANISTLABORATORIET Lunds Matematiska Sällskap, Lund 7 November 2017

Humanistlaboratoriet Humanistlaboratoriet är en modern forsknings- och träningsmiljö som erbjuder tillgång till och utbildning i att använda olika sorters teknik inom humaniora, till exempel språkarkiveringsteknik och utbildning i korpus- och datahantering. ekofritt rum artikulografi eeg motion capture ögonrörelsemätning och mycket mer

Swe-Clarin Swe-Clarin Humlabbet ingår i en svensk infrastruktur för språkteknologi, Swe-Clarin https://sweclarin.se/ (Common Language Resources and Technology Infrastructure) Språkbanken En annan nod är Språkbanken (Göteborg), som utvecklar och förbättrar språkresurser och språkteknologiska verktyg Bl a Korp, som används för att arbeta med stora textmängder, korpusar https://spraakbanken.gu.se/korp/

Språkbanken: Korp Korp är en webbapplikation som erbjuder ett fönster in i en stor mängd språklig (främst text) data för svenska Resurser från tidningar, bloggar, riksdagen, EU, samt historiska, skönlitterära och akademiska texter

Korp: KWIC (KeyWord in Context) 1. Skriv sökord här 2. Antal träffar här 3. Sökord i kontext här

Korp: ordbild

Parantes, också i Korp: Trenddiagram för historiska textdata (omnämnanden i media mellan 1860 och 1925)

Språkbanken: resurser När man gör automatisk textanalys så vill man helst ha stora mängder text ( big data ) Tidningar, litterära verk etc har ofta restriktioner vad gäller copyright etc Större mängder fri text, som t ex svenska wikipedia är omöjlig att ladda ner artikel för artikel Språkbanken samlar, preparerar och tillgängliggör textresurser antal ord

Resurser: Wikipedia kultur fysik Olika begrepp associeras med olika ord; kan vi hitta struktur automatiskt i detta?

Ämnesmodellering ( topic modelling ) Oövervakad inlärning Försök att dela upp textmängder i ett antal ämnen Försöker att hitta bakomliggande betydelsestrukturer i texter genom att identifiera återkommande mönster? Explorativt inte bevis! Grupperar dokument som använder liknande ord samt ord som förekommer i dokument som liknar varandra (tekniker: latent dirichlet allocation, non-negative matrix factorisation) rörelse

Ämnesmodellering Input: en korpus med ostrukurerade textdokument (nyhetsartiklar, tweets, transkriberade tal etc) Normalt ingen annotering eller träningsmängd Output: ett antal ämnen, representerade av: En karaktäristik deskriptorer i form av ord - som baseras på de högst rankade orden i ämnet Associationer mellan dokument och ämne

Exempel: Ämnesmodell för matematik (~3200 wp-artiklar) Vanliga begrepp, någorlunda vettigt uppdelade Relaterat till Biografier om Relaterade ämnen? utbildning matematiker Stor påverkan av de data man använder. Mänsklig tolkning behövs!

Grunden för ämnesmodellering: term-document matrix Varje kolum är ett dokument Varje rad är ett ord ( term ) Ju mörkare cell, desto högre frekvens (CC-BY-SA-4.0, Christoph Carl Kling)

Och målet Topics!

Non-negative Matrix Factorisation (NMF) Lee, D. D., & Seung, H. S. (1999). Learning the parts of objects by Non-negative Matrix Factorization. Nature, 401(6755), 788. Identifierar dold struktur i en icke-negativ matris (typ term-document) genom att dela upp den i två icke-negativa matriser

document-term: documenttopic: topic-term:

Illustration: delkorpusar ur wikipedia Ett antal artiklar som innehåller ordet X (X = matematik, fysik, kultur etc) En aning textbearbetning NFM https://github.com/derekgreene/dynamic-nmf

Textbearbetning Minsta ordlängd: ta bort termer med längd < 2 Bokstavsvariant: gör om till gemener Ta bort stopp-ord: högfrekventa ord som inte bidrar till ämnen (att, det, och ) Lågt antal dokument: ta bort termer som förekommer i ett lågt antal dokument Högt antal dokument: ta bort termer som förekommer i ett högt antal dokument Lemmatisering: ta bort grammatiska ändelser siffra = siffror, mäta = mäter

Ämnesmodell för kultur (~16000 wp-artiklar) andra Olika media Om folk Politik

Ämnesmodell för fysik (~4000 wp-artikar) kroppsbyggnad Relevanta begrepp Nobelpris? utbildning

Himmelriket?

Himmelriket! Del av svenskafans.com Svenska idrottsrelaterad site startat i sep 2000 Täcker framförallt europeisk fotboll Varje lag har sin egen subsite Nyheter, artiklar, fakta och ett forum Massor av text!!! Drivs av användare Himmelriket är sub för Malmö FF (MFF) Mästare :) Har även spelat i Champions League http://www.svenskafans.com/fotboll/mff/

Korpus baserad på internetresurser

(slide from Derek Greene)

Himmelrikets forum Diskussionssystem där användare kan föra konversationer genom att posta inlägg Skiljer sig från chattar genom att texterna (i regel) är något längre & mer välformulerade Helt sekventiellt inga ämneskategorier Inloggning krävs för att posta men ej för att läsa + ladda ner I princip allt MFF-relaterat tillåtet Moderering finns ( saxen )

Lite basfakta (nov 2017) ~5000 filer med text, en per dag sedan 2004 > 1.5 mil inlägg > 57 mil termer, 1.5 mil unika termer mest frekventa innehållsord: MFF (~160k) andra frekventa: spelare, lag, spela, bättre, Malmö, matchen, fan, mål, :), poäng, tränare, klubben, miljoner mest omnämnde spelare: Zlatan (~20k) Zlatan spelade för Malmö 99-01 (innan starten!) fotboll och pengar ung. lika vanliga (~24k)

Ämnesmodelling av Himmelriket Viss textbearbetning NFM

Ämnesmodell himmelriket (138k inlägg) Klubb, supportrar Andra lag, tävlingar Namngivna spelare; notera olika generationer! matchrelaterat smuts Zlatan!

Användning av ämnesmodellering Rekommendationssystem (netflix, spotify) om du gillade x, så kanske du även gillar y andra som tittat på x, har även tittat på y de som tittade på x, köpte så småningom y Katalogisering Hitta relevant litteratur inom ett vetenskapligt fält Används kanske mest för skapa inblick i stora textmängder