Klustring av svenska tidningsartiklar

Relevanta dokument
Klustring av svenska tidningsartiklar

Genomsnittligt sökdjup i binära sökträd

Borel-Cantellis sats och stora talens lag

Webprogrammering och databaser. Begrepps-modellering. Exempel: universitetsstudier Kravspec. ER-modellen. Exempel: kravspec forts:

Databaser - Design och programmering. Programutveckling. Programdesign, databasdesign. Kravspecifikation. ER-modellen. Begrepps-modellering

(a) om vi kan välja helt fritt? (b) om vi vill ha minst en fisk av varje art? (c) om vi vill ha precis 3 olika arter?

Föreläsning G04: Surveymetodik

1. Test av anpassning.

Databaser - Design och programmering. Databasdesign. Kravspecifikation. Begrepps-modellering. Design processen. ER-modellering

Multiplikationsprincipen

Tidtabell. 208/209 Skellefteå - Skelleftehamn Sommar, från och med 16/6 till och med 17/ Tel.

Lösningar och kommentarer till uppgifter i 1.1

1. M öt et s öp pn an d e S ve n fö r k la r a r mö t et ö p p nat k lo c k a n i me d le ms k o nt o r et.

Systemdesign fortsättningskurs

Föreläsning 10: Kombinatorik

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

x 1 x 2 x 3 x 4 x 5 x 6 HL Z x x x

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Datorövning 2 Fördelningar inom säkerhetsanalys

Föreläsning F3 Patrik Eriksson 2000

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Cartesisk produkt. Multiplikationsprincipen Ï Ï Ï

REGULJÄRA SPRÅK (8p + 6p) 1. DFA och reguljära uttryck (6 p) Problem. För följande NFA över alfabetet {0,1}:

välkommen till Bröderna Lejonhjärta nyhet!

Digital signalbehandling Fönsterfunktioner

Tentamen i Kunskapsbaserade system, 5p, Data 3

Tentamen i Flervariabelanalys F/TM, MVE035

Kompletterande kurslitteratur om serier

RESTARITMETIKER. Avsnitt 4. När man adderar eller multiplicerar två tal som t ex

tala är silver dela är guld

Utlandskyrkans krisberedskap

Allmänna avtalsvillkor för konsument

Innehåll Grafräknaren och diskret matematik...1 Vad handlar diskret matematik om?...1 Permutationer och kombinationer...3 Något om heltalsräkning...

Linköpings tekniska högskola IKP/Mekaniksystem Mekanisk värmeteori och strömningslära. Exempeltentamen 3. strömningslära, miniräknare.

a utsöndring b upptagning c matspjälkning d cirkulation

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

Tentamen 1 i Matematik 1, HF1903, Fredag 14 september 2012, kl

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

. Mängden av alla möjliga tillstånd E k kallas tillståndsrummet.

101. och sista termen 1

SundCom Group. Workshop 8 Med tillgång till statistik Nordic Connect november KÖPENHAMN

HOW TO GROW. .how to grow. .how not to grow 15 % 74a%

Armin Halilovic: EXTRA ÖVNINGAR

TAMS15: SS1 Markovprocesser

Akt 2, Scen 7: Utomhus & Den första förtroendeduetten. w w w w. œ œ œ. œ œ. Man fick ny - pa sig i ar-men. Trod-de att man dröm-de.

Parkerings- och handelsutredning Kristianstad centrum

Utvärdering av tidigarelagd start av prismätningar i nya radio- och TV-butiker

Mönster. n n n n n n n n n n. Singleton Monostate Null object Factory Composite Observer Abstract server Adapter Bridge Proxy

MS-A0409 Grundkurs i diskret matematik I

Leica Lino. Noggranna, självavvägande punkt- och linjelasers

5. Linjer och plan Linjer 48 5 LINJER OCH PLAN

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

MA2018 Tillämpad Matematik III-Statistik, 7.5hp,

Tentamen i matematisk statistik

Dagordning. Pågående planering Information om kommunalt VA Hur påverkar VA utbyggnaden fastighetsägaren? Information om avgifter mm Frågor

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Ny lagstiftning från 1 januari 2011

ÖPPNA OCH SLUTNA MÄNGDER. KOMPAKTA MÄNGDER. DEFINITIONSMÄNGD. INLEDNING. Några viktiga andragradskurvor: Cirkel, ellips, hyperbel och parabel.

UTVECKLINGSTRAPPA BOXARE VÄRDEGRUND DIPLOMBOXNING

Datorövning 2 Fördelningar inom säkerhetsanalys

SveTys. Affärskultur i Tyskland. Vad är det? Och vad ska jag tänka på?

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

Visst kan man faktorisera x 4 + 1

Finansiell ekonomi Föreläsning 3

Databaser - Design och programmering. Databasdesign. Funktioner. Relationsmodellen. Relationsmodellen. Funktion = avbildning (mappning) Y=X 2

För att minimera de negativa hälsokonsekvenserna av tunnelluft finns i dagsläget tre metoder;

Enkät inför KlimatVardag

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Funktionsteori Datorlaboration 1

z Teori z Hypotesgenerering z Observation (empirisk test) z Bara sanningen : Inga falska teser z Hela sanningen : Täcker alla sanna teser

Datastrukturer och algoritmer

Samtal med Karl-Erik Nilsson

Fourierserien. fortsättning. Ortogonalitetsrelationerna och Parsevals formel. f HtL g HtL t, där T W ã 2 p, PARSEVALS FORMEL

DEL I. Matematiska Institutionen KTH

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

Beteckningar för områdesreserveringar: T/kem Landskapsplanering

INSIGHTLAB: KOMPETENSKORT EXECUTIVE SUMMARY Gör dina val medvetet

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

NEWTON-RAPHSONS METOD (en metod för numerisk lösning av ekvationer)

Jag läser kursen på. Halvfart Helfart

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

Tentamen Metod C vid Uppsala universitet, , kl

Design mönster. n n n n n n. Command Active object Template method Strategy Facade Mediator

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

Konsoliderad version av. Styrelsens för ackreditering och teknisk kontroll föreskrifter (STAFS 1993:18) om EEG-märkning av färdigförpackade varor

Nr 1 Va ren Almö. Foto: Håkan Nilsson

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

NEWTON-RAPHSONS METOD (en metod för numerisk lösning av ekvationer)

Familje- juridik Här är dina rättigheter. Bostad& fastighet. Sambo eller gift? Sambo eller gift? Privata Affärers serie om. Del 3

Räkning med potensserier

Universitetet: ER-diagram e-namn

ESBILAC. mjölkersättning för hundvalpar BRUKSANVISNING.

TRIBECA Finansutveckling

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

R app o r t T A n a l y s a v f as t p r o v. Ut f ä r dad P e r S a mu el s s on

Fiskars avdelning pä Finlands Mässas 50-àrs jubileumsmässa.

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

1. Ange myndighet och kontaktperson

Transkript:

Klustrig av sveska tidigsartiklar Magus Rosell rosell@ada.kth.se http://www.ada.kth.se/~rosell/

Klustrig Kategoriserig eller klassificerig att fra texter till p f rhad best mda kategori er Klustrig att dela i e m gd text er i kluster (grupper) efter ieh ll, s att t extera iom ett kluster r mer li ka varadra te xter i adra kluster. Detta skapar e (ok d ) klassificerig. Klustrig har tidigare (missvisade) kallats Automatic Classificatio

Represetatio Represetatio av texter som i iformatioss kig; vector space model med tf- och idf-viktig Likhetsm tt, tex cosie measure Ett kluster ka represeteras med e vektor i samma rum. Dea ka kallas cetroid eller klustercetrum och ber ka s tex som medelv rd et (kompoetvis) av alla de i klustret ig e de textera.

Utv rderig Hur ser e bra idelig av texter ut? Ire m tt av der ite yttre iformatio. Yttre m tt av der yttre iformatio, tex e f rdig kategoriserig.

Ire m tt Likhetsm ttet ka av das till utv rderig. Ju mer lika klustre r sig sj lva desto mer samlade r de. Problemet med ire m tt r att de ber or av represetatioe. Klustrigar med olika represetatio ka ite j mf ras med varadra.

Yttre m tt Yttre m tt lita r till yttre iformatio. Vad r e bra idelig? Precisio, P, och t ckig, R, ger v rde f r varje eskilt kluster: P = dr j och i r j R = r atalet texter i r atalet texter i kategori i, i kluster j, r atalet texter ur kategori i i kluster j.

Yttre m tt (forts) F-measure (högre bättre): F-measure för hela klustrige (hierarkisk): F dr max p = R = 2 F R + i i P P max( F r taget alla iv er och ) ver alla kluster r totala atalet texter

Yttre m tt (forts) Etropi (l gre bttre, mer ordat) r det m tt jag fr mst av t. Saolikhet : p dr och = j j r atalet texter ur kategori r atalet texter i kluster j i i kluster j

Yttre m tt (forts) Etropi för kluster j: E = p log( p ) j i Etropi för hela klustrige: E tot = j j E j

Tv algoritmer K-mea (icke hierarkisk, partioerade) Sabb: O() textj mf relser, atal texter Agglomerativ klustrig (hierarkisk) L gsam: O( _) textj mf relser Det fis m ga variater av dessa bda. Jag beskriver dem ekelt och geerellt.

K-mea Skapa k kluster med cetroider (ta tex slumpm ssigt k texter och l t dessa bilda var sitt kluster) G igeom alla texter och f r varje text till det kluster de r mest lik Ber ka de ya cetroidera Upprepa 2 och 3 tills ett stoppkriterie uppfyllts

Agglomerativ klustrig L t alla texter bli ett eget kluster Ber ka likhet mella alla kluster Sl ihop de tv mest lika klustre Uppdatera likhetera mella klustre Upprepa 3 och 4 tills ett stoppkriterie uppfyllts

Vilke av algoritmera r bst? Agglomerativ klustrig har l ge ase tts bttre k- mea, me Steibach et al visar med tester att k-mea r bttre f r textklustrig. De ger ocks e trol ig f rklarig: tv texter ka ligga rmas t varadra i represetatiosrummet uta att tillh ra samma klass. K-mea f gar global a tedeser meda agglomerativ klustrig arbetar lokalt.

Feature reductio (S rdragsreduktio?) LSI LatetSematic Idexig Reducera rummet till dimesioer (mha SVD Sigular Value Decompositio). Represetera textera i detta ya rum (global projektio). Tar l g tid. Trukerig spar bara de m viktigaste termera i varje text (lokal projektio). Sch tze et al visar med tester att trukerig ger lika bra resultat som LSI. Det r cker att truk era cetroidera.

Sveska Stemmig f rbttrar klustrigsresultat (etropi) med ugef r 10% i sitt (OBS uppskattig) Uppdelig av sammasatta ord f rbttrar ocks resultatet.

Uppdelig av sammasatta ord Om ma s ker efter miister vill m a (kaske) ve hitta f rsvarsmiister. B ttre p egelska miister of defece. E s kig efter f rsvarsmiister ger goda resultat. S mre p egelska tr ffar ve ebart miister och defece. I klustrig vill ma att texter som hadlar om likade saker ska bli lika varadra.

Uppdelig av sammasatta ord (forts) R ttstavi gsprogrammet STAVA http://www.ada.kth.se/~viggo/stava/ delar upp sammasatta ord i ordled och kotrollerar dessa var f r sig. Vissa ord som ite br delas u pp (ur ett iformatio s -perspekti v) delas upp: miss+f rst d, efter+gift, god+tar, r tt+visa, f r+r da, till+d ra, stor+slage, upp+tage Stopplista med ord som ite br delas upp.

Uppdelig av sammasatta ord (forts) Vissa delord har v ldigt lite betydelse: topp+form, upp+dela, er+slage, f r+historia, till+fr ga Stopplista f r vissa ordled: miss, f r, upp etc.

Uppdelig av sammasatta ord (forts) Hur ska orde och ordlede viktas?

Tidigsartikelspecifikt (ett sammasatt ord!) Tidigsartiklar har titlar och fetstil. Jag har f rs kt vikta ord som f rekom i titel och fetstil h gre. Det gav tyv rr ige f rbttrig. Jag klustrade p bara titlara. Det gav d liga resultat.

Exempel KTH News Corpus Dages Nyheter och Aftobladet r idelade i kategorier (Irikes, Sport, Kultur, Ekoomi etc)

N gra refereser A Compariso of Documet Clusterig Techiques Michael Steibach, George Karypis, Vipi Kumar Projectios for Efficiet Documet Clusterig Herich Sch tze, Craig Silverstei Scatter/Gather: A Cluster-based Approch to Browsig Large Documet Collectios Douglass R.Cuttig, David R. Karger, Ja O. Pederse, Joh W. Tukey Iformatio Retrieval C.J. Va Rsberge Klustrig av sveska tidigsartiklar (exjobb) Magus Rosell