Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering



Relevanta dokument
Innehåll. Informationssökning språkteknologiska hjälpmedel

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Klustring av svenska tidningsartiklar

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Klustring av svenska texter P E T E R J O H A N S S O N

Evaluating a spelling support in a search engine

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1


Hur man hjälper besökare hitta på en webbplats

Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Stavningskontroll i sökmotor

Dokumentrekommendationssystem och intranät

Avtalsform Ramavtal & enstaka köp Namn Söktjänst

Dags för en ny söktjänst på KTH

Random Indexing för vektorbaserad semantisk analys

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

Klustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi)

Så här fungerar Stava Rex

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.

Version: Datum: DynaMaster 5 Golf Övergripande manual

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Avropsförfrågan från ramavtal

Högre kvalitet med automatisk textbehandling?

Introduktion till språkteknologi

Manual till publiceringsverktyg

Sökmotoroptimering i e-line

ClaroStava ett rättstavningsprogram

Hur jag arbetar med min dator del 2

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Lathund för Gustavas ordböcker

Tentamen Marco Kuhlmann

TextIT Hjälp. Om du vill ha all text uppläst trycker du på knappen spela

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Österlengymnasiet

Optimering av webbsidor

Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual

FOR BETTER UNDERSTANDING. Snabbguide.

PubMed gratis Medline på Internet 1946-

Kompensatoriska Tekniska Hjälpmedel - appar och andra verktyg. Cecilia Widlund, leg. logoped Logopederna Sverige AB

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Från encyklopedier till Google-sökningar

Använd WordFinder Pro för Mac optimalt! Snabbguide med nyttiga tips och trix.

Sökmotormarknadsföring

Lathund för SpellRight

E-biblioteket en tjänst från sjukhusbiblioteken

Internet. En enkel introduktion. Innehåll:

Språkteknologin i industrin

ClaroDictionary med tal. ClaroDictionary utan tal

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per.

Kom igång med SpellRight

INSTRUKTIONER FÖR VIDA-PRENUMERATION INNEHÅLL

Personnummer och namn i denna manual är fiktiva.

Våren Nationalencyklopedin. Avancerad guide

SEO-rapport. Innehållsförteckning. Introduktion EkoLekos sökord.. 3. Rapport från Semrusch som visar EkoLekos Organic Search Summary,...

Automatisk textsammanfattning

Textstil/tonalitet med Acrolinx

Lingvistik I Delmoment: Datorlingvistik

Tillämpad programmering CASE 1: HTML. Ditt namn

Humanistiska programmet

CD-ORD. Ett komplett läs- och skrivverktyg. Elevdata

TDDD02 Föreläsning 7 HT-2013

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Nya Klartext Dokumentsök Söker blixtsnabbt igenom alla era dokument!

Att köpa webb En guide till en värld i daglig förändring.

SEMSEO sökmotoroptimering SEO

Kursplaneöversättaren. Lina Stadell

17. DEN OSYNLIGA FRIA WEBBEN EXEMPEL

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Språk, datorer och textbehandling

ARBETSMATERIAL. Intern webbsök på Göteborgs universitet

Automatisk tesauruskonstruktion med latent semantisk indexering

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Det svenska sökbeteendet 2012

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster

Informationssökning - att söka och finna vetenskapliga publikationer Linköpings Universitetsbibliotek

VCON har stöd för upp till 32 dysor samtidigt. Upp till 3 sekvenscykler per dysa kan specifi ceras.

Google Guide: Tips för sökoptimering

Peter Hellström. PH-Digital Marketing

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Sammanfattning av informationssökning VT19

Lingvistik I Delmoment: Datorlingvistik

Google sökverktyg Universell sökning för företag

Syns ni på sökmotorerna?

Teknisk tillgänglighet

Vad kan statistik avslöja om svenska sammansättningar?

SEO Sökmotoroptimering

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)

Så vinner du fajten på Google

CD-ORD 8 elevdata.se

Vidareutveckling av sökmotor i EPiServer CMS

ClaroRead Plus Mac Manual. Artikel.nr

Transkript:

Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska stöd vid sökning och kategorisering Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd KWIC- Key word in context Extrakt av relevanta textutdrag Kategorisering Klustring Hercules Dalianis sid 2 Bilverkstäder Trunkering bilv* Stemming + lite regler bilverkstad Frågeexpansion- generera alla böjningsformer bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, Samma effekt som stemming men mer kostsamt datamässigt Hercules Dalianis sid 3 Stemming Stemming (Carlberger et al 2001) Bilverkstad => bilverkstaden, bilverkstäder, mm 15-18 procent bättre träffar vid sökning på svenska. Andra språk upp till 30-50 procent bättre träffar Hercules Dalianis sid 4 Tvetydigheter tas bort Stammen kan var tvetydig cykel => cykl cyklist => cykl Tvetydigheter tas bort cykel => cykel cyklist => cykl Slå ihop till samma ord Webbmaster => webmaster, webbmaster, webbansvarig Mord => mörd Mordet => mörd Mördare => mörd Hercules Dalianis sid 5 Hercules Dalianis sid 6

Tomlinson (2001) (Hummingbird Fulcrum) ökade precisionen vid sökning genom att använda stemming tyska 43% holländska 30% franska 18% italienska 16% spanska 12%, engelska 12% Hercules Dalianis sid 7 Tomlinson (2002) (Hummingbird Fulcrum) ökade precisionen vid sökning genom att använda stemming Finska 69%, (word splitting) Tyska 27% (word splitting) Spanska 8% Holländska 8%, Franska 6%,? Italienska 4%,? Svenska 4% Engelska 2% användandes Inxight LinguistX tool (Xerox) Hercules Dalianis sid 8 Stavningstöd vid sökning Många felstavade sökord i sökmotorer 10 % minst Stavningsstöd => fuzzy matching Hercules Dalianis sid 9 Långa frågor Genomsnitt tvåordsfrågor 1.8 eller 2.3 ord per fråga Längre frågor ger bättre svar Större inmatningsfält Frassökning innebär att man behåller stopporden NEAR och ordposition Större index - lika stort som dokumentsamlingen minst. Hercules Dalianis sid 10 Sex olika typer av stavfel Personer som inte kan inte stava rättdyslektiker, andraspråksanvändare, mfl Slarvfel - slinter på tangentbordet Osäkra på stavningen Felstavningar i indexet Särskrivningar eller hopskrivningar Alternativa stavningar av ord i indexet (Namn stavas på olika sätt) Hercules Dalianis sid 11 Många felstavningar vid sökning 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002)) Google pressrelease (2002) säger samma sak 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002) Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt) Hercules Dalianis sid 12

Dynamiskt stavningsstöd Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt Indexet är lexikonet Alla ord i indexet är rätt även felstavade ord. Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editeringsavstånd av sökordet till ett ord i indexet. Provar med olika näraliggande tangentbordsättningar Hercules Dalianis sid 13 Hercules Dalianis sid 14 Fyra feltyper insertion (införande) deletion (strykning) substitution (ersättning) transposition täcker 80 procent av alla stavfel På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen 40 procent av förslagen var särskrivningar (datamässigt tungt) 30 procent är alternativa stavningar 22 procent var felstavningar Dokumentsamlingen innehöll drygt 5000 dokument Hercules Dalianis sid 15 Hercules Dalianis sid 16 Särskrivningar 40 procent utrikestraktamente => traktamente utrikes bilavgifter => avgifter bilar expertskatt => expert skatt skattejämkningsblankett => jämkningsblankett skattejämkning Alternativa stavningar 30 procent engångskatt => engångsskatt kyrkskatt => kyrkoskatt hempc => hem-pc rotavdrag => rot-avdrag arvsskifte => arvsskiftet pharmasia => pharmacia skattåterbäring => skatteåterbäring Hercules Dalianis sid 17 Hercules Dalianis sid 18

Stavfel 22 procent engångskatt => engångsskatt giftemål => giftermål jämnkning => jämkning skillsmässa => skilsmässa skiljsmässa => skilsmässa skattejämnkning => skattejämkning Stavningsstödets precision och täckning? I ett annat kontrollerat experiment på 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003). Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003). Hercules Dalianis sid 19 Hercules Dalianis sid 20 KWIC Att göra automatisk särskrivning är datamässigt tungt rättstavning => rätt stavning Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning Google, SiteSeeker Hercules Dalianis sid 21 KWIC- Key word in context Extrakt av relevanta textutdrag De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten Tvungen att klicka in i alla dokument Textsammanfattare SweSum ihopkopplad med Altavista 1999!! Hercules Dalianis sid 22 Sökmotorer med KWIC Google AltaVista Fast SiteSeeker har alla KWIC idag Hercules Dalianis sid 23 Hercules Dalianis sid 24

Hercules Dalianis sid 25 Hercules Dalianis sid 26 Synonymgenerering Termexpansion vore bra att ha Bilverkstad => bilverkstad, bilreparation, garage, verkstad Man vill slippa använda synonymlexikon LSI Latent Semantic Indexing (LSA Latent semantic analysis) Bygger på vektorrymdsmodellen Termer som befinner sig nära varandra kanske har med varandra att göra. Tidskrävande Samförekomster bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige, mm Hercules Dalianis sid 27 Hercules Dalianis sid 28 Synonymgenerering bilverkstad, bilreparation, bilskada, garage, mm) LSI Latent Semantic Indexing (LSA Latens semantic analysis) Generering av samförekomster av termer Random Indexing mer effektivt än LSI/LSA Approximering av LSI/LSA Skapar färre dimensioner än LSI/LSA Lättare att uppdatera Hercules Dalianis sid 29 Hercules Dalianis sid 30

Google synonymsökning ~volvo => volvo car, cars ~volvo -volvo ~car -car => 240, vehicle, motor, racing, automotive, auto ~car => BMV, auto, motor, car ~car -car => automotive, motor vehicle, racing Kategorisering vid indexering och sökning Automatisk språkigenkänning - svenska, engelska, kinesiska, m.m. Dokumenttyp HTML, PDF, Word, Excel, PDF, m.m. Datum Kategorier i form av server, domän, eller land Hercules Dalianis sid 31 Hercules Dalianis sid 32 Kategorisering Kategorier finns även på webbplatser Kommuner t.ex. Kommunf rvaltning Skolor Fritid Kultur Socialf rvaltning vrigt Kategorisering föränderligt På många webbplatser ändrar sig eller läggs kategorier till efter hand De färdigvalda kategorierna blir snabbt obsoleta Automatisk kategorisering genom bra exampel? Men de flesta använder inte kategorier vid sökning Hercules Dalianis sid 33 Hercules Dalianis sid 34 Klustring Kategorisering manuellt och förutbestämt Klustring automatiskt och ej förutbestämt Klustring är klurigt Enligt vilka mått skall man klustra? Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen) Andra mått Antal ord som texterna delar Antal ord som delas samt ordfrekvenserna Normalisering Hercules Dalianis sid 35 Hercules Dalianis sid 36

Klustringsalgoritmer Icke hierarkiska Korpusen delas i ett antal kluster som ej innehåller varandra. (Partitionerade algoritmer) Hierarkiska En hierarki av kluster som innehåller varandra. Rosell 2003 om man vill läsa mera Kategorisering Överlappande eller icke överlappande kategorier Polythetic och Monothetic överlappande och icke överlappade egenskaper Ordnade eller icke ordnade kategorier Hercules Dalianis sid 37 Hercules Dalianis sid 38 Vivisimo klustringssökmotorn Sökmotorn Vivisimo www.vivisimo.com har en klustrare Tar de första 500 bästa träffarna och klustrar dem Hercules Dalianis sid 39 Hercules Dalianis sid 40 Klustring Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter K-mean icke-hierarkisk algoritm Använde stemming och ordledsuppdelning Stemming förbättrar klustringsresultaten med ungefär 5 procent. Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003). Hercules Dalianis sid 41 Hercules Dalianis sid 42

Semiautomatisk kategorisering Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början Därigenom kunde han se hur pass bra klustren blev. Hercules Dalianis sid 43 Hercules Dalianis sid 44 Slutsatser Framtiden Termexpansion Särskrivning Semiautomatisk kategorisering Flerspråklig sökning Hercules Dalianis sid 45 Hercules Dalianis sid 46