Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring



Relevanta dokument
Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Innehåll. Informationssökning språkteknologiska hjälpmedel

Klustring av svenska tidningsartiklar

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

VAD TYCKER DE ÄLDRE OM ÄLDREOMSORGEN? - SÄRSKILT BOENDE I HÖGANÄS KOMMUN 2013

Klustring av svenska texter P E T E R J O H A N S S O N

Lokalt företagsklimat 2008 Enkätundersökning med företagare i - Katrineholm

Lokalt företagsklimat 2008 Enkätundersökning med företagare i - Uddevalla

HUR EFFEKTIV ÄR R EDA KOMMUN?

Steg 4. Lika arbeten. 10 Diskrimineringslagen

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Tentamen Marco Kuhlmann

Instruktioner för användning av Accessapplikationen till uppföljning av skyddsvärda arter kärlväxter samt AnnexIIkärlväxter

Ämneslärarprogram. inriktning gymnasiet

Bilaga 1. Wu Shu. San Shou

Rolladministration i PaletteArena 5.3

Antal svarande i kommunen 32 Andel svarande i kommunen, procent 43 Kategorier ångest? Mycket dåligt Totalt Nej. Någorlunda. Mycket gott.

Kärnkraftsopinionen november 2006

Seriehantering. [En enkel guide för hur du som serieadministratör använder SVEMO TA.]

Användarmanual Pagero Connect 2.0

Bakgrund & Genomförande

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

Klustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi)

Vad tycker de äldre om äldreomsorgen? 2015 Resultat för Åre Särskilt boende

Beräkning av björnstammens storlek i Värmland, Dalarnas och Gävleborgs län

Vad tycker du om sfi?

LITEN LATHUND TILL ALUMNDATABASEN

Befolkningsutvecklingen i Kronobergs län 2015

ViTex snabbguide. 1. Inläsning till ViTex från scanner eller PDF Läs in text via scanner Läs in text från en JPEG-bild eller ett PDF-dokument

Vad tycker de äldre om äldreomsorgen? Resultat för Skövde Särskilt boende

Lokalt företagsklimat Piteå

Fritextsökning på studera.nu

Methodological aspects of toe blood pressure measurements for evaluation of arterial insufficiency in patients with diabetes

Barns säkerhet i bil. vid ankomst till förskolan. Helen Sjöberg

Semesteromställning Personec P

Rapport Vad tycker äldre om äldreomsorgen Sammanställd av socialförvaltningens kvalitetsgrupp Redovisad för socialnämnden 2014-

Möte med Strukturfondpartnerskapet den 20 september Elisabeth Krantz 031/

Associationsanalys och klustring

Riktlinjer för styrdokument

BARNS SPRÅKUTVECKLING


hjälp av SAS Text Miner

Tillsyn av simkunnighet och förmåga att hantera nödsituationer

Vad tycker de äldre om äldreomsorgen? Resultat för Oxelösund Särskilt boende

Rita med ritstift. Raka banor Klicka med Ristiftet vid varje hörn.

Fördjupning till vissa kapitel i Dokumentstyrningsplanen

Beteende, miljömärkning, pris och ansvar

2012:2 Folkmängd och befolkningsförändringar i Eskilstuna år 2011.

Ska du genomgå en IVF-behandling? Varför blir vissa kvinnor lättare gravida än andra? Varför får vissa missfall?

Tävlings-PM / Sportskytte

MIN Drömplan. Uppföljningstillfällen: Följande datum ska jag följa upp min drömplan:

Sammanfattning på lättläst svenska

HANDLEDNING ZENIT BILBOKNING

Skriftlig kommunikation. Att väcka och behålla läsarnas intresse

Användarmanual HOIF.org

riktlinje modell plan policy program regel rutin strategi taxa riktlinje för styrdokument ... Beslutat av: Kommunfullmäktige

Aditro HR Portalen - logga in och byta lösenord

RUTIN FÖR FALLPREVENTION

Vad tycker de äldre om äldreomsorgen 2013? Verksamhetsresultat för Burlöv Särskilt boende

Framtidens bredband en prioriterad fråga för länen och regionerna?

Förslagsvis kan vi på den gröna nivån ligga kvar med nuvarande Knatteligakoncept med sammandrag arrangerade av våra lokala föreningar

Förstudie. Nerikes Brandkår. Diarieföring av allmänna handlingar Ref Roger Wallin

Värdegrund för äldreomsorgen

Översyn av kriterierna för bidrag till föreningar med mera

Enheten för preventiv näringslära. Karolinska sjukhuset

Företagsklimatet i Vilhelmina kommun 2016

Företagsklimatet i Arvidsjaurs kommun 2016

Företagsklimatet i Rättviks kommun 2016

Världskrigen. Talmanus

Innehåll. Användarstudier. Användarstudier enligt Microsoft. Varför? Aktivt lyssnande. Intervjuteknik. Intervju Observation Personor Scenarier Krav

Gör en antavla med bilder

Rapportering till FORA 2016

Generell Analys. 3. Det är viktigt att du väljer ett svar i vart och ett av de åttio blocken.

EUROPAPARLAMENTET. Utskottet för rättsliga frågor och den inre marknaden. Förslag till direktiv (KOM(2003) 621 C5-0610/ /0252(COD))

Grafer. 1 Grafer. Grunder i matematik och logik (2015) 1.1 Oriktade grafer. Marco Kuhlmann

Bilaga 3 Enkät Göteborgs Universitet/Vårdalinstitutet

SurveyXact funktionsöversikt Version 6.3. Allmänt om SurveyXact

Dokumenthantering för RA-dokument

Lundabygdens Prova På IF

Om nikotintuggummin och betydelsen av smak och konsistens för att sluta röka

Förändringar i regelverket avseende införande av intygskonverteringstjänst och alternativt tekniskt anslutningsförfarande

BILAGA KARTLÄGGNING SOCIALSEKRETERARE STOCKHOLM (MELLAN)

Samhälle, samverkan & övergång

Lösningsfokuserat arbetssätt med manualstyrd föräldrautbildning. Utbildning för föräldrar som har mycket konflikter med sina barn i åldern 3-11 år

Vad tycker de äldre om äldreomsorgen? Resultat för Arvika Hemtjänst

DIARIEFÖRINGSHANDBOK Version 0.2

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen

Objektorienterad programmering D2

Beskrivning av produktregistret

1. Skulle du vilja att dina barn åt mer frukt- och grönsaker än vad de gör idag?

Att använda strategier för muntlig kommunikation. LS i moderna språk, spanska åk 9

Uppföljning och tillsyn av vårdgaranti i Finland

Lokalt företagsklimat Helsingborg

Lokalt företagsklimat Grums

Lokalt företagsklimat Arvidsjaur

Tryggheten viktigast för den som ska sälja bostad

Skapa test med fritextfrågor

Föreläsning 4: Giriga algoritmer. Giriga algoritmer

Tillsynsplan för alkoholhandläggarens arbetsområde 2015

Vad tycker de äldre om äldreomsorgen? Resultat för Skövde Hemtjänst

Transkript:

Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är något som uppstår Hercules Dalianis 1 Hercules Dalianis 2 Kategorisering vid indexering och söknings Automatisk språkigenkänning - svenska, engelska, kinesiska, m.m. Dokumenttyp HTML, Word, Excel, PDF m.m. Datum Kategorier i form av server, domän, eller land Hercules Dalianis 3 Inrikes Utrikes Sport Ekonomi Kultur m.m. Kategorisering Hercules Dalianis 4 Kategorisering föränderligtf Kategorier tillkommer hela tiden Kategorier försvinner De färdigvalda kategorierna blir snabbt obsoleta 3g ny kategori? Juni-listan EU ny kategori fanns inte för 10 år sedan Automatisk kategorisering genom bra exampel? Men de flesta använder inte kategorier vid sökning Hercules Dalianis 5 Klustring Klustring - Automatisk kategorisering Klustring vid sökning Hitta nya samband mellan dokument 100 000 nyhetstexter kan man gruppera dem på något sätt Hercules Dalianis 6 1

Klustring Klustring är klurigt Enligt vilka mått skall man klustra? Enligt vilka metoder? Hierarkisk klustring K-mean Hierarkisk klustring Ta ett stort allomfattande kluster och dela upp i det mindre kluster. Bättre kvalité på kluster med hierarkisk än med icke-hierarkisk klustring Men långsam klustring Hercules Dalianis 7 Hercules Dalianis 8 K-mean algoritm Välj K initiala startpunkter Låt alla dokument gruppera sig runt dessa Flytta tyngdpunkten till nya centrumet Gruppera om dokumenten Flytta tyngdpunkten till nya tyngdpunkten gör om till balans uppnåtts Bestämt antal kluster Ej hierarkisk K-mean (forts) Snabbare klustring Sämre kvalité på kluster Kombinera hierarkiskt klustring och K-mean Är effektivt kallas, bl.a. K-mean bisecting Hercules Dalianis 9 Hercules Dalianis 10 Mått för f r likhet mellan kluster Förfining Vektorrymdmodellen Ordvektorernas produkt är likheten Ordvektor - alla ord i dokumentet Cosine = Vinkeln mellan texternas ordvektorer d 1 = {alla ord i ett dokument 1 } d 2 = {alla ord i ett dokument 2 } d 1 d 2 = cos(d 1, d 2 ) = vinkeln mellan d 1 och d 2 Ta bort stoppord, med, på, i, kanske Kollapsa alla böjda ordformer till en form Ha med ordfrekvenser Särskrivning? Normalisering för dokumentlängd Hercules Dalianis 11 Hercules Dalianis 12 2

Andra måttm Antal ord som texterna delar Antal ord som delas samt ordfrekvenserna Klusterkvalité i förhf rhållande till referens Entropi ordningen i klustret i förhållande till förväntad ordning. Låg entropi = hög ordning F-värde F-värde = 2 x Recall * Precision/ Recall+ Precision Hercules Dalianis 13 Hercules Dalianis 14 Precision/Täckning ckning Precision = antal funna relevanta dokument/ totalt antal funna dokument Täckning(Recall) = antal relevanta dokument / totalt antal relevanta dokument Bi-secting K-mean 1. Ta ett stort kluster 2. Dela upp i två kluster (K=2) 3. Använd de två klustrerna som frön till K-mean upprepa 1 och 2 tills nöjd Hercules Dalianis 15 Hercules Dalianis 16 Kategorisering Överlappande eller icke överlappande kategorier Ordnade eller icke ordnade kategorier Vivisimo klustringssökmotorn kmotorn Sökmotorn Vivisimo www.vivisimo.com har en klustrare Tar de första 500 bästa träffarna och klustrar dem Hercules Dalianis 17 Hercules Dalianis 18 3

Klustring Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter Använde stemming och ordledsuppdelning Stemming förbättrar klustringsresultaten med ungefär 5 procent. Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003). Hercules Dalianis 19 Hercules Dalianis 20 Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början Därigenom kunde han se hur pass bra klustren blev. Läs mera i Rosell 2003 Hercules Dalianis 21 Hercules Dalianis 22 Infomatprojektet KTH och Karolinska Institutet Tvillingregistret med 44 000 tvillingar Vad arbetar du med? Manuell kategorisering av SCB tar 3 månader Automatisk klustring några timmar Visa resultat Evaluering F-värdet är 86% och 82% av två olika manuella klassificeringar AMSYK & YK80 Klustrerna har en vinst av 77% och 71% av informationsvinsten. (Entropi) Precisionen är 85% och 82% av precisionen av klassificeringarna Hercules Dalianis 23 Hercules Dalianis 24 4

Automatisk kategorisering Tvillingregistret Vad arbetar du med? 45 000 texter-svar K-mean bisecting clustering algoritm (Ickehierakisk algoritm top-down) Skapa minst två initiala centrum och låt sedan algoritmen hitta fler underkluster. Centra flyttar allt eftersom nya kluster skapas. Efter en stund skapas jämvikt. http://www.nada.kth.se/~rosell/cluster/resultoccupationf-1087930997527.html Hercules Dalianis 25 Semiautomatisk kategorisering Ge positiva exempel på några kategorier Automatiskt sortera in övriga och inkommande dokument beroende på likhet i rätt kategori Hercules Dalianis 26 Semiautomatisk kategorisering Hercules Dalianis 27 Hercules Dalianis 28 Multi-textsammanfattning Columbia Newsblaster Flera nyhetsartiklar sammanfattade till en artikel http://www1.cs.columbia.edu/nlp/newsblaster/ Multisum-algoritm Finns flera algoritmer för detta men man kan använda SweSum textsammanfattningssystem som bas: 1) Sammanfatta alla sidor var för sig 2) Ta alla sammanfattningar och sammanfatta dessa till en text Hercules Dalianis 29 Hercules Dalianis 30 5

Multisum-algoritm(forts) Men det finns komplikationer i vilken ordning skall man lägga texterna vid sammanfattningen vid steg 2. Skall man ranka dokumenten innan man bestämmer sammanfattningen? Vill man ha en bra sammanfattning skall man kanske ta bort en del dåliga dokument? Hercules Dalianis 31 Multisum-algoritm(forts) En variant är att klustra alla texter innan man sätter igång och få säg 10 kluster med texter som hänger ihop. Därefter sammanfattar man varje text i varje kluster för sig. Därefter varje sammanfattning i varje kluster till 10 sammanfattningar (10 kluster) som sedan sammanfattas till en text som beskriver det allra viktigaste. Hercules Dalianis 32 Sammanfattning 3-nivåsammanfattning 1) 10 -> Sammanfattning-> 10 texter 2) 10 -> Multitextsammanfattning ->1 text 3) 10-> Multitextsammanfattning > 1 text Kategorisering är nödvändigt Kategorisering kräver mycket arbete Klustring kanske för komplicerat Semiautomatisk kategorisering? Klustring för att hitta samband Multitextsammanfattning använder klustring Hercules Dalianis 33 Hercules Dalianis 34 6