ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

Relevanta dokument
Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korp. Övningar Språkbankens höstworkshop oktober 2016

det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Språk, datorer och textbehandling

Sofie Johansson Kokkinakis

Språkteknologi och Open Source

Digitala verktyg i matematik- och fysikundervisningen ett medel för lärande möten

Informationskompetens

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

NÄRING FÖR NYFIKNA. Användarhandbok

Kort presentation av Korp, Sveriges nationalkorpus

PR-konsulternas syn på omvärldsbevakning

Lathund för mediebevakning

Anhållan om ändrad ersättning för vissa HST

CESSDA-arbete i Sverige

Swe-Clarin. Daniel Brodén Forskningssamordnare Swe-Clarin Swe-Clarin på turné, Stockholms universitet 16 maj 2018

Infrastrukturer/områden som kan ansöka om bidrag 2017

Lära matematik med datorn. Ulrika Ryan, projektledare för Matematik för den digitala generationen Byskolan, Södra Sandby

Manual till hemsidan

Språkbanken en (inter)nationell forskningsinfrastruktur

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Policy för Skånes Ridsportförbunds närvaro i sociala medier

Svensk nationell datatjänst, SND BAS Online

Lära matematik med datorn

MÄN ÄR FRÅN FOURSQUARE, KVINNOR FRÅN FACEBOOK

Manual för administratör

Utveckling i antal träffar på ordet korvfestivalen i Google under Q1

NATURVETENSKAP FÖR LIVET?

Klassificering av homonymer Inlämningsuppgift språkteknologi

Mars Det digitala valet. Följ valåret 2018 i de sociala kanalerna med Notified och Springtime.

Hur kan vi använda korpusmaterial och teckenspråkslexikon i språkutbildningen?

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

META-NORD, META-NET, META-SHARE: Vad har alla dessa META grupper att bjuda på?

Instruktioner för roedeers.se

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

SVENSKA. Lokal kursplan för ämnet Svenska. Kungsmarksskolan Strävansmål år 9

Pressguide - mötet med pressen

NATURVETENSKAP FÖR LIVET?

Manual för administratör

1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05

Kriminologiska på lärplattformen

Särskild undervisning för vuxna. Välkommen att studera på. Särvux

Källuppgifter i fysik FAFA55

Registrera sammanläggningsavhandling

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

LPP, Reflektion och krönika åk 9

Textforskningen och dess metoder idag

Till Språkvägen finns även en omfattande lärarhandledning med stort kopieringsunderlag.

Wikipedia och Wikipedianer i folkbildningens tjänst. Olof Sundin Högskolan i Borås & Lunds universitet

Arbetsområde: Från pinnar till tal

Registrera sammanläggningsavhandling

Förslag den 25 september Engelska

a SKAPAR INTRESSE a a

Bloggar - Som marknadsföring och varumärkesbyggande. Calle Johansson Essä i Digitala Distributionsformer Högskolan Väst - 23 maj 2011

Grupper; Gruppindelningar; Vanliga inställningar för modul

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Välkommen att studera på Särskild undervisning för vuxna

A-C Ernehall, Fässbergsgymnasiet, Mölndal

Hjälp oss att bygga fotbollsstaden Kramfors

kunna diskutera och samtala fritt om olika ämnen och med stort sammanhang

Media uppgift Problem 1

729G09 Språkvetenskaplig databehandling

Det fasta innehållet finns på sidor och kan inte ändras av den som har rollen författare.

INFÖR NATIONELLA PROVEN I SVENSKA. Olika typer av texter

HUMANISTISK OCH SAMHÄLLSVETENSKAPLIG SPECIALISERING

Lgr 11 matriser i Favorit matematik 4 6

HTML5 Semantic. Informationen kommer från w3schools.com. En semantisk elementet beskriver tydligt dess betydelse för både webbläsaren och utvecklaren.

Sociala medier för företag

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fakta om Manchester United

Detta whitepaper har t ex hashtag #vadmenasmedhashtags eller #hashtagstrategiforetag Så om du delar detta vidare, ange gärna någon av dessa.

I komvux. Lärvux. Särskild utbildning för vuxna Kurskatalog

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

Virtuella assistenter för bättre kundupplevelser

Söka artiklar i CSA-databaser Handledning

Agera Affärsstöd Webb - integrerad lösning

Schack4an. - Vad händer sen? Författare: Peter Heidne. Examinatorer: Jesper Hall Lars Holmstrand Pesach Laksman. Lärande och samhälle

Svensk nationell datatjänst en infrastruktur för forskningsdata inom samhällsvetenskap, humaniora och medicin

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Arbeta med Selected Works en lathund

Denna förordning är till alla delar bindande och direkt tillämplig i alla medlemsstater.

Fråga: Vi ska skapa en omvärldsbevakningsgrupp och undrar hur ska man tänka när man skapar bevakningar för att plocka upp trender inom ett ämne?

Analysrapport över flyktingfrågans exponering under 2015

Lyssna på nätet med Social Media Analytics

Juni Det digitala valet. Följ valåret 2018 i de sociala kanalerna med Notified och Springtime.

Starta din försäljning med hjälp av sociala medier

Introduktion BAS On-Line

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

PubMed (Medline) Fritextsökning

Tidsinställ din hemsida

Medieanalys. U21-EM i Malmö. Medieanalytiker: Andreas Leifsson

Handledning Sherpa/RoMEO

I komvux. Lärvux. Särskild utbildning för vuxna Kurskatalog

Transkript:

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET? JOHAN FRID, HUMANISTLABORATORIET Lunds Matematiska Sällskap, Lund 7 November 2017

Humanistlaboratoriet Humanistlaboratoriet är en modern forsknings- och träningsmiljö som erbjuder tillgång till och utbildning i att använda olika sorters teknik inom humaniora, till exempel språkarkiveringsteknik och utbildning i korpus- och datahantering. ekofritt rum artikulografi eeg motion capture ögonrörelsemätning och mycket mer

Swe-Clarin Swe-Clarin Humlabbet ingår i en svensk infrastruktur för språkteknologi, Swe-Clarin https://sweclarin.se/ (Common Language Resources and Technology Infrastructure) Språkbanken En annan nod är Språkbanken (Göteborg), som utvecklar och förbättrar språkresurser och språkteknologiska verktyg Bl a Korp, som används för att arbeta med stora textmängder, korpusar https://spraakbanken.gu.se/korp/

Språkbanken: Korp Korp är en webbapplikation som erbjuder ett fönster in i en stor mängd språklig (främst text) data för svenska Resurser från tidningar, bloggar, riksdagen, EU, samt historiska, skönlitterära och akademiska texter

Korp: KWIC (KeyWord in Context) 1. Skriv sökord här 2. Antal träffar här 3. Sökord i kontext här

Korp: ordbild

Parantes, också i Korp: Trenddiagram för historiska textdata (omnämnanden i media mellan 1860 och 1925)

Språkbanken: resurser När man gör automatisk textanalys så vill man helst ha stora mängder text ( big data ) Tidningar, litterära verk etc har ofta restriktioner vad gäller copyright etc Större mängder fri text, som t ex svenska wikipedia är omöjlig att ladda ner artikel för artikel Språkbanken samlar, preparerar och tillgängliggör textresurser antal ord

Resurser: Wikipedia kultur fysik Olika begrepp associeras med olika ord; kan vi hitta struktur automatiskt i detta?

Ämnesmodellering ( topic modelling ) Oövervakad inlärning Försök att dela upp textmängder i ett antal ämnen Försöker att hitta bakomliggande betydelsestrukturer i texter genom att identifiera återkommande mönster? Explorativt inte bevis! Grupperar dokument som använder liknande ord samt ord som förekommer i dokument som liknar varandra (tekniker: latent dirichlet allocation, non-negative matrix factorisation) rörelse

Ämnesmodellering Input: en korpus med ostrukurerade textdokument (nyhetsartiklar, tweets, transkriberade tal etc) Normalt ingen annotering eller träningsmängd Output: ett antal ämnen, representerade av: En karaktäristik deskriptorer i form av ord - som baseras på de högst rankade orden i ämnet Associationer mellan dokument och ämne

Exempel: Ämnesmodell för matematik (~3200 wp-artiklar) Vanliga begrepp, någorlunda vettigt uppdelade Relaterat till Biografier om Relaterade ämnen? utbildning matematiker Stor påverkan av de data man använder. Mänsklig tolkning behövs!

Grunden för ämnesmodellering: term-document matrix Varje kolum är ett dokument Varje rad är ett ord ( term ) Ju mörkare cell, desto högre frekvens (CC-BY-SA-4.0, Christoph Carl Kling)

Och målet Topics!

Non-negative Matrix Factorisation (NMF) Lee, D. D., & Seung, H. S. (1999). Learning the parts of objects by Non-negative Matrix Factorization. Nature, 401(6755), 788. Identifierar dold struktur i en icke-negativ matris (typ term-document) genom att dela upp den i två icke-negativa matriser

document-term: documenttopic: topic-term:

Illustration: delkorpusar ur wikipedia Ett antal artiklar som innehåller ordet X (X = matematik, fysik, kultur etc) En aning textbearbetning NFM https://github.com/derekgreene/dynamic-nmf

Textbearbetning Minsta ordlängd: ta bort termer med längd < 2 Bokstavsvariant: gör om till gemener Ta bort stopp-ord: högfrekventa ord som inte bidrar till ämnen (att, det, och ) Lågt antal dokument: ta bort termer som förekommer i ett lågt antal dokument Högt antal dokument: ta bort termer som förekommer i ett högt antal dokument Lemmatisering: ta bort grammatiska ändelser siffra = siffror, mäta = mäter

Ämnesmodell för kultur (~16000 wp-artiklar) andra Olika media Om folk Politik

Ämnesmodell för fysik (~4000 wp-artikar) kroppsbyggnad Relevanta begrepp Nobelpris? utbildning

Himmelriket?

Himmelriket! Del av svenskafans.com Svenska idrottsrelaterad site startat i sep 2000 Täcker framförallt europeisk fotboll Varje lag har sin egen subsite Nyheter, artiklar, fakta och ett forum Massor av text!!! Drivs av användare Himmelriket är sub för Malmö FF (MFF) Mästare :) Har även spelat i Champions League http://www.svenskafans.com/fotboll/mff/

Korpus baserad på internetresurser

(slide from Derek Greene)

Himmelrikets forum Diskussionssystem där användare kan föra konversationer genom att posta inlägg Skiljer sig från chattar genom att texterna (i regel) är något längre & mer välformulerade Helt sekventiellt inga ämneskategorier Inloggning krävs för att posta men ej för att läsa + ladda ner I princip allt MFF-relaterat tillåtet Moderering finns ( saxen )

Lite basfakta (nov 2017) ~5000 filer med text, en per dag sedan 2004 > 1.5 mil inlägg > 57 mil termer, 1.5 mil unika termer mest frekventa innehållsord: MFF (~160k) andra frekventa: spelare, lag, spela, bättre, Malmö, matchen, fan, mål, :), poäng, tränare, klubben, miljoner mest omnämnde spelare: Zlatan (~20k) Zlatan spelade för Malmö 99-01 (innan starten!) fotboll och pengar ung. lika vanliga (~24k)

Ämnesmodelling av Himmelriket Viss textbearbetning NFM

Ämnesmodell himmelriket (138k inlägg) Klubb, supportrar Andra lag, tävlingar Namngivna spelare; notera olika generationer! matchrelaterat smuts Zlatan!

Användning av ämnesmodellering Rekommendationssystem (netflix, spotify) om du gillade x, så kanske du även gillar y andra som tittat på x, har även tittat på y de som tittade på x, köpte så småningom y Katalogisering Hitta relevant litteratur inom ett vetenskapligt fält Används kanske mest för skapa inblick i stora textmängder