Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Relevanta dokument
Innehåll. Informationssökning språkteknologiska hjälpmedel

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Evaluating a spelling support in a search engine

Lathund för Gustavas ordböcker

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Stavningskontroll i sökmotor

Hur man hjälper besökare hitta på en webbplats

Kompensatoriska Tekniska Hjälpmedel - appar och andra verktyg. Cecilia Widlund, leg. logoped Logopederna Sverige AB

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

PubMed gratis Medline på Internet 1946-

Dags för en ny söktjänst på KTH

ClaroStava ett rättstavningsprogram

FOR BETTER UNDERSTANDING. Snabbguide.

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Lathund för SpellRight

Hur jag arbetar med min dator del 2

Använd WordFinder Pro för Mac optimalt! Snabbguide med nyttiga tips och trix.

Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Våren Nationalencyklopedin. Avancerad guide

ClaroDictionary med tal. ClaroDictionary utan tal

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Klustring av svenska tidningsartiklar

Så här fungerar Stava Rex

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Från encyklopedier till Google-sökningar

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

Bortom AND, OR och NOT. Fördjupning i fritextsökning

Österlengymnasiet

Random Indexing för vektorbaserad semantisk analys

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

Läget, läget, läget. Sök, sök, sök. mars 2018/Ted Durdel

Lösningsförslag till tentamen i Språkteknologi 2D1418,

INSTRUKTIONER FÖR VIDA-PRENUMERATION INNEHÅLL

CD-ORD. Ett komplett läs- och skrivverktyg. Elevdata


Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)

Det bästa är att kombinera flera olika metoder och källor. TIPS - för informationssökning på webben!

TextIT Hjälp. Om du vill ha all text uppläst trycker du på knappen spela

Avtalsform Ramavtal & enstaka köp Namn Söktjänst

TDDD02 Föreläsning 7 HT-2013

Lathund för Stava Rex

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Biblioteken, Futurum 2017

Dokumentrekommendationssystem och intranät

Informationssökning - att söka och finna vetenskapliga publikationer Linköpings Universitetsbibliotek

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.


Tentamen Marco Kuhlmann

Vad kan statistik avslöja om svenska sammansättningar?

Lexikon. versättning. Maskinövers. Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon

WF 9 MAC Kom i Gång SV Sida 1 FOR BETTER UNDERSTANDING KOM I GÅNG.

Textstil/tonalitet med Acrolinx

Automatisk textsammanfattning

Introduktion till språkteknologi

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Manual till publiceringsverktyg

Uppdaterad Hitta önskad förening när du har öppnat PRO RIKS. PRO Riks. Hitta din förening genom att dra ner listan för föreningar.

SEO Sökmotoroptimering

Kom igång med SpellRight

Sökmotormarknadsföring

Uppdaterad / EM. The Cochrane Library

EXTRA ANPASSNINGAR OCH FÄRDIGHETSTRÄNING

PIM Lärresurser

Humanistiska programmet

Bibliotekets resurser för filosofistudenter vt Catrin Andersson Umeå universitetsbibliotek

Söka och hitta Internet resurser.

Vidareutveckling av sökmotor i EPiServer CMS

Webbsida i Wordpress. Existens på webben och bli sökbar

Kursplaneöversättaren. Lina Stadell

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Välkommen till ClaroStava svenska mac med tal artnr 12312

Sociala medier för företag

SKRIV HANDLEDNING ELLER SKRIVHANDLEDNING? Maria Nyman, CSK

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per.

Handicom. Symbol for Windows. Blisseditor. Version 3.4

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Obesvarade frågor från F4

Avropsförfrågan från ramavtal

E-biblioteket en tjänst från sjukhusbiblioteken

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Lathund Claro Read Plus

VIDA RELEASE NEWS OM DET HÄR DOKUMENTET UTGÅVA: 2013C INFORMATION TILL FRISTÅENDE VERKSTÄDER

Språkgranskningsverktyg, vt 2008

Webbstudie. Webbplatsstudie av 30 Svenska företag på Stockholmsbörsen. Om Siteimprove

Sö ka litteratur i ERIC

Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:

Maskinöversättning och språkgranskning, ht 2006

ClaroRead Plus Mac Manual. Artikel.nr

Transkript:

Språkteknologiska stöd Språkteknologiska stöd Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd Synonymsökning KWIC- Key word in context Extrakt av relevanta textutdrag Hercules Dalianis 1 Hercules Dalianis 2 Förskolor Trunkering förskol* (förskolor, förskolelärare) Stemming + lite regler förskola => förskol, förskolelärare => förskolelärar Frågeexpansion- generera alla böjningsformer förskola => förskola, förskolan, förskolans, förskolor, förskolorna, förskolornas,etc. Samma effekt som stemming men mer kostsamt datamässigt Stemming Stemming (Carlberger et al 2001) bilverkstaden, bilverkstäder, mm => bilverkstad 15% bättre precision och 18% bättre täckning vid sökning på svenska. Andra språk upp till 30-50 procent bättre träffar Hercules Dalianis 3 Hercules Dalianis 4 Slå ihop till samma ord webmaster, webbmaster, webbansvarig => webbmaster Mord,mordet, mördare => mörd Tomlinson (2001) (Hummingbird Fulcrum) ökade precisionen vid sökning genom att använda stemming tyska 43% holländska 30% franska 18% italienska 16% spanska 12%, engelska 12% Hercules Dalianis 5 Hercules Dalianis 6 1

Tomlinson (2002) (Hummingbird Fulcrum) ökade precisionen vid sökning genom att använda ordsplittring Mobiltelefonbatteri => mobil telefon batteri Finska 69%, (word splitting) Tyska 27% (word splitting) Spanska 8% Holländska 8%, Franska 6%,? Italienska 4%,? Svenska 4% Engelska 2% användandes Inxight LinguistX tool (Xerox) Långa frågor Genomsnitt tvåordsfrågor 1.8 eller 2.3 ord per fråga Längre frågor ger bättre svar Större inmatningsfält Frassökning innebär att måste behålla stopporden NEAR och ordposition Större index - lika stort som dokumentsamlingen minst. Hercules Dalianis 7 Hercules Dalianis 8 Stavningsstöd d vid söknings Många felstavade sökord i sökmotorer 10 % minst Stavningsstöd => fuzzy matching Många felstavningar vid söknings 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002)) Google pressrelease (2002) säger samma sak 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002) Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 4 miljon sökfrågor totalt) Hercules Dalianis 9 Hercules Dalianis 10 Sökning i ordböcker Stava används i Lexin Skolverket en webbaserad ordbok, med bl.a. svensk-engelsk ordbok 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt Sex olika typer av stavfel Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, mfl Slarvfel - slinter på tangentbordet Osäkra på stavningen Särskrivningar eller hopskrivningar Alternativa stavningar av ord i indexet (Namn stavas på olika sätt, Eriksson, Erikson, Erixon) Felstavningar i indexet Hercules Dalianis 11 Hercules Dalianis 12 2

Dynamiskt stavningsstöd Indexet är lexikonet Alla ord i indexet är rätt även felstavade ord. Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet. Provar med olika näraliggande tangentbordsättningar insertion deletion Fyra feltyper substitution transposition täcker 80 procent av alla stavfel Hercules Dalianis 13 Hercules Dalianis 14 På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen 40 procent av förslagen var särskrivningar (datamässigt tungt) 30 procent är alternativa stavningar 22 procent var felstavningar Dokumentsamlingen innehöll drygt 5 000 dokument Särskrivningar 40 procent utrikestraktamente => traktamente utrikes bilavgifter => avgifter bilar expertskatt => expert skatt skattejämkningsblankett => jämkningsblankett skattejämkning Hercules Dalianis 15 Hercules Dalianis 16 Alternativa stavningar 30 procent kyrkskatt => kyrkoskatt hempc => hem-pc rotavdrag => rot-avdrag arvsskifte => arvsskiftet pharmasia => pharmacia skattåterbäring => skatteåterbäring Stavfel 22 procent engångskatt => engångsskatt giftemål => giftermål jämnkning => jämkning skillsmässa => skilsmässa skiljsmässa => skilsmässa skattejämnkning => skattejämkning Hercules Dalianis 17 Hercules Dalianis 18 3

Stavningsstödets precision och täckning? t Sökning med stavningsstöd bland 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11,5 procent (Sarr 2003). Sökning med svensk stemming på 54 000 texter ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003). Sär- och hopskrivning Att göra automatisk särskrivning är datamässigt tungt rättstavning => rätt stavning Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning Google, SiteSeeker Hercules Dalianis 19 Hercules Dalianis 20 KWIC-Snippets Snippets-Extrakt Prova att söka på Google med Utrikestraktamente Businessintelligence Särskrivning sker! KWIC- Key word in context Extrakt av relevanta textutdrag De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten Tvungen att klicka in i alla dokument Textsammanfattare SweSum ihopkopplad med Altavista 1999!! Hercules Dalianis 21 Hercules Dalianis 22 Sökmotorer med KWIC Google Altavista-Yahoo-Inktomi Alltheweb-Yahoo-Inktomi SiteSeeker Hercules Dalianis 23 Hercules Dalianis 24 4

Hercules Dalianis 25 Hercules Dalianis 26 Synonymgenerering Termexpansion vore bra att ha Bilverkstad => bilverkstad, bilreparation, garage, verkstad Man vill slippa använda synonymlexikon http://www.mediearkivet.se/ Gratis att söka för universitet, högskolor och skolor Sök på fordon och få träff på bil Synonymer och stemming! Hercules Dalianis 27 Hercules Dalianis 28 Latent semantic indexing LSI Latent Semantic Indexing (LSA Latent semantic analysis) Bygger på vektorrymdsmodellen Termer som befinner sig nära varandra kanske har med varandra att göra. Tidskrävande Samförekomster bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige, mm Random indexing Approximation av Latent Semantic Indexing Snabbare och effektivare Hercules Dalianis 29 Hercules Dalianis 30 5

Google synonymsökning Demo Google ~ ~volvo => volvo car, cars ~volvo -volvo ~car -car => 240, vehicle, motor, racing, automotive, auto ~car => BMV, auto, motor, car ~car -car => automotive, motor vehicle, racing Hercules Dalianis 31 Hercules Dalianis 32 Trunkering Stemming Synonymer Stavningstöd LSI och RI Sammanfattning Hercules Dalianis 33 6