Klustring av svenska tidningsartiklar

Relevanta dokument
Klustring av svenska tidningsartiklar

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Klustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi)

Klustring av svenska texter P E T E R J O H A N S S O N

Innehåll. Informationssökning språkteknologiska hjälpmedel

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Dimensionsreducerande vektorrumsmetoder för språkbehandling

(1/5) David Södermark Data Mining

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Associationsanalys och klustring

Eulercykel. Kinesiska brevbärarproblemet. Kinesiska brevbärarproblemet: Metod. Kinesiska brevbärarproblemet: Modell. Definition. Definition.

Påverkar Dag 0 express däckförsäljningen?

Automatisk tesauruskonstruktion med latent semantisk indexering

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Variator Automatisk synonymvariering av text

Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts.

Concept description genom klustring

Trolldetektering. En undersökning i lämpligheten att använda ämnesmodellering och klustring förtrolldetektion. LILI DU ERIK SÖDERBERG

WEBBKLUSTRING SLUTRAPPORT

Information Retrieval. Information Retrieval (IR)

EXJOBBSOPPOSITION. Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh

Automatisk FAQ med Latent Semantisk Analys

Random Indexing för vektorbaserad semantisk analys

Inlämningsuppgift: Pronomenidentifierare

Kan man lära datorer att läsa? NIKLAS LUNDBORG

E-biblioteket en tjänst från sjukhusbiblioteken

Datorlaboration 2. Läs igenom avsnitt 4.1 så att du får strukturen på kapitlet klar för dig.

Projektion av träningsdata på aktuell underrum av dim 1. Föreläsning 7: Klassificering, minsta kvadratproblem, SVD, forts.

Rekommendationssystem. med fördjupning på collaborative filtering

Rocchio, Ide, Okapi och BIM En komparativ studie av fyra metoder för relevance feedback

Vinjetter TDDC91 Datastrukturer och algoritmer

Föreläsning 4: Giriga algoritmer. Giriga algoritmer

7.5 Experiment with a single factor having more than two levels

Seminarium: Att skriva en akademisk uppsats. LT200X Stefan Stenbom

Dokumentrekommendationssystem och intranät

Matematisk modellering fortsättningskurs Visuell variation

Att söka information (med betoning på Internet)

Objektorienterad programmering Föreläsning 8. Copyright Mahmud Al Hakim Agenda (halvdag)

Textsammanfattning av sökresultat

DN/Ipsos: Valvinden samt väljarnas betyg på regeringen och alliansen

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

En fråga som ibland dyker upp är den om illamående och kräkningar. Kan man med någon omvårdnadsintervention göra det lättare för patienten.

Genom undervisning i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Lösningsförslag till tentamen i SF1861 Optimeringslära för T. Torsdag 28 maj 2010 kl

1.6 Castiglianos 2:a Sats och Minsta Arbetets Princip

Speciell användning av heltalsvariabler. Heltalsprogrammering. Antingen-eller-villkor: Exempel. Speciell användning av heltalsvariabler

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Uppgift 1 - programmet, Uppg6.m, visade jag på föreläsning 1. Luftmotståndet på ett objekt som färdas genom luft ges av formeln

Titel: Ett träningsbart verktyg för att klassificera nyhetstexter (A learnable tool for classifying news texts)

Linjära avbildningar. Definition 1 En avbildning mellan två vektorrum, F : V U, kallas linjär om. EX. Speglingar, rotationer, projektioner i R 3.

PubMed gratis Medline på Internet 1946-

Case-based resoning. och dess användning inom sjukvården. Linköpings universitet Artificiell intelligens II 729G11 HT 2011

hjälp av SAS Text Miner

KLUSTRING & PRESENTATION

Bildbaskontoret. Bruksanvisning. Handitek. anpassar tekniken till människan BRUX\...\ BILDBASKONTORET

Lathund för studenter

7.5 Experiment with a single factor having more than two levels

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

Snabbguide till Cinahl

Föreläsning 9 Exempel. Intervallhalveringsmetoden. Intervallhalveringsmetoden... Intervallhalveringsmetoden...

Statistisk mönsterigenkänning

Uppsats i MDI En reflektion över designarbetet i tidigare inlämningsuppgift

En komparativ litteraturstudie av olika termkällor för query expansion

SF1624 Algebra och geometri

Kan datorn lära sig ordkunskap automatiskt?

HI1024 Programmering, grundkurs TEN

Algoritmer, datastrukturer och komplexitet

Föreläsning 9 Exempel

I en matchning ligger varje hörn i högst en kant. I en stig ligger varje hörn i högst två kanter.

Passage Retrieval En studie av index

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Rapportgranskning, Rapport 1

Kvalitativ Analys. Utvärderingsmetoder inom MDI DH2408

Föreläsning 5: Grafer Del 1

Regressions- och Tidsserieanalys - F8

Bilaga 1: GPS-teknik, en liten ordlista

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi


Analys av nutidens tågindelning

Dagens ämnen. Linjära ekvationssystem: Successiv elimination Vektorer Definitionen Grundläggande räkneoperationer Bas och koordinater Ortsvektorer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Lilla PubMed-lathunden

DANTEK ELEVWEB HJÄLP. Dantek ElevWeb Hjälp. Version 1 Copyright 2016 by Dantek AB. Sidan 1

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.

Nätkurs Design & konstruktion av användargränssnitt 1MD113 Sid 1 (5) Lektion 11 Användare, uppgifter och krav del

Arbeta med Selected Works en lathund

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

8.1 General factorial experiments

Datalogi, grundkurs 1

Appendix A. Dubbelkonsmodellen en datorexekverbar designprincip för hjärnan

Kandidatexjobb vid Industriell Marknadsföring. Process, tidsplan och opponenter samt krav

Hur skriver man statistikavsnittet i en ansökan?

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

evidensbaserad databas för sjukgymnaster

Transkript:

Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/

Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier Klustring dela in en mängd texter i kluster (grupper) efter innehåll, så att texterna inom ett kluster är mer lika varandra än texter i andra kluster. Detta skapar en (okänd) klassificering. Klustring har tidigare (missvisande) kallats Automatic Classification

Representation Representation av texter som i informationssökning; vector space model med tf- och idf-viktning Likhetsmått, tex cosine measure Ett kluster kan representeras med en vektor i samma rum. Denna kan kallas centroid eller klustercentrum och beräknas tex som medelvärdet (komponentvis) av alla de i klustret ingående texterna.

Utvärdering Hur ser en bra indelning av texter ut? Inre mått använder inte yttre information. Yttre mått använder yttre information, tex en färdig kategorisering.

Inre mått Likhetsmåttet kan användas till utvärdering. Ju mer lika klustren är sig själva desto mer samlade"är de. Problemet med inre mått är att de beror av representationen. Klustringar med olika representation kan inte jämföras med varandra.

Yttre mått Yttre mått litar till yttre information. Vad är en bra indelning? Precision, P, och täckning, R, ger värde för varje enskilt kluster: P ij = n ij /n i R ij = n ij /n j där n i är antalet texter i kluster i, n j antalet texter i kategori j och n ij är antalet texter ur kategori j iklusteri.

Yttre mått (forts) F-measure (högre bättre): F ij = 2P ijr ij P ij + R ij F-measure för hela klustringen (hierarkisk): F = i n i n max {F ij } j där max är taget över alla kluster på alla nivåer och n är totala antalet texter

Yttre mått (forts) Entropi (lägre bättre, mer ordnat) är det mått jag främst använt. Sannolikhet : p ij = n ij n i där n ij är antalet texter ur kategori j i kluster i och n i är antalet texter i kluster i.

Yttre mått (forts) Entropi för kluster i: E i = j p ij log p ij Entropi för hela klustringen: E tot = i n i n E i

Två algoritmer K-mean (icke hierarkisk, partionerande) Snabb: O(n) textjämförelser, n antal texter Agglomerativ klustring (hierarkisk) Långsam: O(n 2 ) textjämförelser Det finns många varianter av dessa båda. Jag beskriver dem enkelt och generellt.

K-mean Skapa k kluster med centroider (ta tex slumpmässigt k texter och låt dessa bilda var sitt kluster) Gå igenom alla texter och för varje text till det kluster den är mest lik Beräkna de nya centroiderna Upprepa 2 och 3 tills ett stoppkriterie uppfyllts

Agglomerativ klustring Låt alla texter bli ett eget kluster Beräkna likhet mellan alla kluster Slåihopdetvåmestlikaklustren Uppdatera likheterna mellan klustren Upprepa 3 och 4 tills ett stoppkriterie uppfyllts

Vilken av algoritmerna är bäst? Agglomerativ klustring har länge ansetts bättre än k-mean, men Steinbach et al visar med tester att k-mean är bättre för textklustring. De ger också en trolig förklaring: två texter kan ligga närmast varandra i representationsrummet utan att tillhöra samma klass. K-mean fångar globala tendenser medan agglomerativ klustring arbetar lokalt.

Feature reduction (Särdragsreduktion?) LSI Latent Semantic Indexing Reducera rummet till n dimensioner (mha SVD Singular Value Decomposition). Representera texterna i detta nya rum (global projektion). Tar lång tid. Trunkering spar bara de m viktigaste termerna i varje text (lokal projektion). Schütze et al visar med tester att trunkering ger lika bra resultat som LSI. Det räcker att trunkera centroiderna.

Svenska Stemming förbättrar klustringsresultat (entropi) med ungefär 10% i snitt (OBS uppskattning) Uppdelning av sammansatta ord förbättrar också resultatet.

Uppdelning av sammansatta ord Om man söker efter minister"vill man (kanske) även hitta försvarsminister". Bättre på engelska minister of defence". En sökning efter försvarsministerger goda resultat. Sämre på engelska träffar även enbart ministeröch defence". I klustring vill man att texter som handlar om liknande saker ska bli lika varandra.

Uppdelning av sammansatta ord (forts) Rättstavningsprogrammet STAVA (http://www.nada.kth.se/ viggo/stava/) delar upp sammansatta ord i ordled och kontrollerar dessa var för sig. Vissa ord som inte bör delas upp (ur ett "informationsperspektiv) delas upp: miss+förstånd, efter+gift, god+tar, rätt+visa, för+råda, till+dra, stor+slagen, upp+tagen Stopplista med ord som inte bör delas upp.

Uppdelning av sammansatta ord (forts) Vissa delord har väldigt liten betydelse: topp+form, upp+dela, ner+slagen, för+historia, till+fråga Stopplista för vissa ordled: miss, för, upp etc.

Uppdelning av sammansatta ord (forts) Hur ska orden och ordleden viktas?

Tidningsartikelspecifikt (ett sammansatt ord!) Tidningsartiklar har titlar och fetstil. Jag har försökt vikta ord som förekom i titel och fetstil högre. Det gav tyvärr ingen förbättring. Jag klustrade på bara titlarna. Det gav dåliga resultat.

Exempel KTH News Corpus Dagens Nyheter och Aftonbladet är indelade i kategorier (Inrikes, Sport, Kultur, Ekonomi etc)

Några referenser A Comparison of Document Clustering Techniques Michael Steinbach, George Karypis, Vipin Kumar Projections for Efficient Document Clustering Henrich Schütze, Craig Silverstein Scatter/Gather: A Cluster-based Approch to Browsing Large Document Collections Douglass R. Cutting, David R. Karger, Jan O. Pedersen, John W. Tukey Information Retrieval C.J. Van Rijsbergen Klustring av svenska tidningsartiklar (exjobb) Magnus Rosell