Klustrig av sveska tidigsartiklar Magus Rosell rosell@ada.kth.se http://www.ada.kth.se/~rosell/
Klustrig Kategoriserig eller klassificerig att fra texter till p f rhad best mda kategori er Klustrig att dela i e m gd text er i kluster (grupper) efter ieh ll, s att t extera iom ett kluster r mer li ka varadra te xter i adra kluster. Detta skapar e (ok d ) klassificerig. Klustrig har tidigare (missvisade) kallats Automatic Classificatio
Represetatio Represetatio av texter som i iformatioss kig; vector space model med tf- och idf-viktig Likhetsm tt, tex cosie measure Ett kluster ka represeteras med e vektor i samma rum. Dea ka kallas cetroid eller klustercetrum och ber ka s tex som medelv rd et (kompoetvis) av alla de i klustret ig e de textera.
Utv rderig Hur ser e bra idelig av texter ut? Ire m tt av der ite yttre iformatio. Yttre m tt av der yttre iformatio, tex e f rdig kategoriserig.
Ire m tt Likhetsm ttet ka av das till utv rderig. Ju mer lika klustre r sig sj lva desto mer samlade r de. Problemet med ire m tt r att de ber or av represetatioe. Klustrigar med olika represetatio ka ite j mf ras med varadra.
Yttre m tt Yttre m tt lita r till yttre iformatio. Vad r e bra idelig? Precisio, P, och t ckig, R, ger v rde f r varje eskilt kluster: P = dr j och i r j R = r atalet texter i r atalet texter i kategori i, i kluster j, r atalet texter ur kategori i i kluster j.
Yttre m tt (forts) F-measure (högre bättre): F-measure för hela klustrige (hierarkisk): F dr max p = R = 2 F R + i i P P max( F r taget alla iv er och ) ver alla kluster r totala atalet texter
Yttre m tt (forts) Etropi (l gre bttre, mer ordat) r det m tt jag fr mst av t. Saolikhet : p dr och = j j r atalet texter ur kategori r atalet texter i kluster j i i kluster j
Yttre m tt (forts) Etropi för kluster j: E = p log( p ) j i Etropi för hela klustrige: E tot = j j E j
Tv algoritmer K-mea (icke hierarkisk, partioerade) Sabb: O() textj mf relser, atal texter Agglomerativ klustrig (hierarkisk) L gsam: O( _) textj mf relser Det fis m ga variater av dessa bda. Jag beskriver dem ekelt och geerellt.
K-mea Skapa k kluster med cetroider (ta tex slumpm ssigt k texter och l t dessa bilda var sitt kluster) G igeom alla texter och f r varje text till det kluster de r mest lik Ber ka de ya cetroidera Upprepa 2 och 3 tills ett stoppkriterie uppfyllts
Agglomerativ klustrig L t alla texter bli ett eget kluster Ber ka likhet mella alla kluster Sl ihop de tv mest lika klustre Uppdatera likhetera mella klustre Upprepa 3 och 4 tills ett stoppkriterie uppfyllts
Vilke av algoritmera r bst? Agglomerativ klustrig har l ge ase tts bttre k- mea, me Steibach et al visar med tester att k-mea r bttre f r textklustrig. De ger ocks e trol ig f rklarig: tv texter ka ligga rmas t varadra i represetatiosrummet uta att tillh ra samma klass. K-mea f gar global a tedeser meda agglomerativ klustrig arbetar lokalt.
Feature reductio (S rdragsreduktio?) LSI LatetSematic Idexig Reducera rummet till dimesioer (mha SVD Sigular Value Decompositio). Represetera textera i detta ya rum (global projektio). Tar l g tid. Trukerig spar bara de m viktigaste termera i varje text (lokal projektio). Sch tze et al visar med tester att trukerig ger lika bra resultat som LSI. Det r cker att truk era cetroidera.
Sveska Stemmig f rbttrar klustrigsresultat (etropi) med ugef r 10% i sitt (OBS uppskattig) Uppdelig av sammasatta ord f rbttrar ocks resultatet.
Uppdelig av sammasatta ord Om ma s ker efter miister vill m a (kaske) ve hitta f rsvarsmiister. B ttre p egelska miister of defece. E s kig efter f rsvarsmiister ger goda resultat. S mre p egelska tr ffar ve ebart miister och defece. I klustrig vill ma att texter som hadlar om likade saker ska bli lika varadra.
Uppdelig av sammasatta ord (forts) R ttstavi gsprogrammet STAVA http://www.ada.kth.se/~viggo/stava/ delar upp sammasatta ord i ordled och kotrollerar dessa var f r sig. Vissa ord som ite br delas u pp (ur ett iformatio s -perspekti v) delas upp: miss+f rst d, efter+gift, god+tar, r tt+visa, f r+r da, till+d ra, stor+slage, upp+tage Stopplista med ord som ite br delas upp.
Uppdelig av sammasatta ord (forts) Vissa delord har v ldigt lite betydelse: topp+form, upp+dela, er+slage, f r+historia, till+fr ga Stopplista f r vissa ordled: miss, f r, upp etc.
Uppdelig av sammasatta ord (forts) Hur ska orde och ordlede viktas?
Tidigsartikelspecifikt (ett sammasatt ord!) Tidigsartiklar har titlar och fetstil. Jag har f rs kt vikta ord som f rekom i titel och fetstil h gre. Det gav tyv rr ige f rbttrig. Jag klustrade p bara titlara. Det gav d liga resultat.
Exempel KTH News Corpus Dages Nyheter och Aftobladet r idelade i kategorier (Irikes, Sport, Kultur, Ekoomi etc)
N gra refereser A Compariso of Documet Clusterig Techiques Michael Steibach, George Karypis, Vipi Kumar Projectios for Efficiet Documet Clusterig Herich Sch tze, Craig Silverstei Scatter/Gather: A Cluster-based Approch to Browsig Large Documet Collectios Douglass R.Cuttig, David R. Karger, Ja O. Pederse, Joh W. Tukey Iformatio Retrieval C.J. Va Rsberge Klustrig av sveska tidigsartiklar (exjobb) Magus Rosell