Introduktion till språkteknologi



Relevanta dokument
SEO Sökmotoroptimering

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

Optimering av webbsidor

Checklista. 10 saker du behöver ha på plats för SEO 2019


Snabbguide till Cinahl

Datorlingvistisk grammatik

ATT SKRIVA FÖR WEBBEN

PubMed gratis Medline på Internet 1946-

Korp. Övningar Språkbankens höstworkshop oktober 2016

WEBB365.SE. Hur skriver man sökmotoroptimerade texter

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Google Guide: Tips för sökoptimering

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

Sök artiklar i databaser för Vård- och hälsovetenskap

Hur man hjälper besökare hitta på en webbplats


Centralt innehåll. Tala, lyssna och samtala. Läsa och skriva. Berättande texter och faktatexter. Språkbruk. I årskurs 1-6

Datorlingvistik och språkteknologi

Googles sidrankning - linjär algebra värt en förmögenhet

Sammanfattning av informationssökning VT19

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder

SEMSEO sökmotoroptimering SEO

Sökmotorer På Internet Google

TDDD02 Föreläsning 7 HT-2013

Sökanalys för intranät

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Sökmotoroptimering av en webbshop och sökordsrelevans för försäljningen. Ulf Liljankoski, januari

SPRÅKTEKNOLOGIPROGRAMMET

Sökoptimering - Innehåll

Att skriva för webben

NYHETER I KARNOV. Senast uppdaterad:

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Semantik och pragmatik

svenska kurskod: sgrsve7 50

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Lathund för Lifos-systemet

Förankring i läroplanen. Innehåll. I arbetsområdet kommer eleven att ges förutsättningar att utveckla förmågan att:

Språkteknologi. Språkteknologi

Välkommen till. Särskild utbildning för vuxna i Trelleborg

Att söka information (med betoning på Internet)

ARBETSMATERIAL. Intern webbsök på Göteborgs universitet

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Web Crawlers. TDTS09, Datornät och internetprotokoll. Denis Golubovic Fredrik Salin Linköpings universitet Linköping

Nya EU-förordningar. Manual om hur man använder EUR-Lex avancerade sökfunktion

Att orientera i den närliggande natur- och utemiljön med hjälp av kartor, såväl med som utan digitala verktyg. Kartors uppbyggnad och symboler.

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

Att köpa webb En guide till en värld i daglig förändring.

Peter Hellström. PH-Digital Marketing

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

TDDD02 Föreläsning 6 HT-2013

Bra hemsidor, trender och Google sökmotor

Grammatik för språkteknologer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per.

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Vad är SEO? Topp 10 SEO handlar om att förenkla för sökmotorerna att förstå vad din webbplats handlar om

SEMSEO sökmotoroptimering SEO "Google Top 10. Google SEO sökmotoroptimering Seminarier 2011

Sökmotormarknadsföring

Sökmotoroptimering. Google Search Console

Semantik och pragmatik

Svensk nationell datatjänst, SND BAS Online

En rapport om hur sökningar runt försäkringar ser ut. vad folk söker. vad de hittar

Undersök Google. Sida 1 av 9. En digital lektion från

Modul 1: Online närvaro - Hur skapar jag en hemsida och vad kan den göra för mig?

SPRÅKTEKNOLOGIPROGRAMMET

Statistisk mönsterigenkänning

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster

Semantik och pragmatik (Serie 3)

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Övningar Källkritik på nätet

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Redaktionell sökoptimering. Utbildning för publicerare maj 2016 Elisabet Wartoft

Algoritmer: Från kaos till ordning? Bild från Pixabay

- Kan skriva grundläggande information utifrån sig själv t.ex. personnummer, adress, telefonnummer etc.

Cristina Eriksson oktober 2001

Användarhandbok StepStones Recruiters Space

En introduktion i sökmotoroptimering för besöksnäringen i Västsverige

Sökmotoroptimering. Hur gör jag min sida sökmotorvänlig?

Grundläggande textanalys. Joakim Nivre

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

V I G Å R I G E N O M...

Söka artiklar i CSA-databaser Handledning

Innehåll. Informationssökning språkteknologiska hjälpmedel

Kursplan för utbildning i svenska för invandrare

HD-metoden och hypotesprövning. Vetenskapliga data

Redaktionell utbildning - delkurs 3: Sök och webbanalys

Förslag den 25 september Engelska

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Hur jag arbetar med min dator del 2

Grunderna i inboundmarknadsföring

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

Nedan presenteras en översikt av innehållet i Språkguiden kopplat till de nya kursplanerna i grundläggande vuxenutbildning.

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Evidensbaserad informationssökning

Biblioteken, Futurum 2017

Tekniken bakom språket

Hur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren

Transkript:

Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar. Hjälpa en användare att klassificera dokument. Hjälpa en användare att värdera dokument. Mats Dahllöf Institutionen för lingvistik och filologi December 2008 1 2 Informationshantering: dokumentsökning Problem: Vi har ofta tillgång till stort antal (Internet, många miljoner) dokument och ett problem är att hitta dem vi för tillfället är intresserade av. (Typ av information retrieval.) Hur ser sökönskemålet ut? Vill vi hitta ett bestämt dokument (som vi tror vi vet finns)? Vill vi ha en rangordning efter kvalitet / värde / relevans (och vad är det)? Informationshantering: detaljsökning Vi kan också vilja hitta komponenter inom dokument. (Annan typ av information retrieval.) Typer av tänkbara sökönskemål: omnämnanden av en viss person/visst objekt. publikationsår (anges ofta i ett dokument) förfallodatum i en faktura. bemötanden av motargument (antagligen svårt) 3 4 Informationshantering: informationsextraktion Informationsextraktion är sådan detaljsökning där funnen information dessutom formaliseras, typiskt för att kunna hanteras i en databas och med intelligenta metoder. Exempel: Extraktion av enstaka uttryck av viss typ, t.ex. namn eller årtal. Fakta, av typer som Person är född År, eller Person är anställd vid Företag, Företag1 förvärvar Företag2 för en Köpeskilling en viss Dag. Informationshantering: text mining Text mining utgår från informationsextraktion och försöker ställa samman extraherad kunskap (från olika källor) till ny kunskap. T.ex. kan man sammanställa fakta om gener och proteiner i bioinformatisk forskning. 5 6 Informationshantering: dokumentklassificering Vi vill hänföra dokument till ett antal givna kategorier (en taxonomi), t.ex. bestämma innehållskategori. seriösa e-brev kontra spam. bestämma typ av ärende, genre, språk, typ av avsändare, etc. (t.ex. fiktion kontra faktatext, man eller kvinna som författare) Dokumentjämförelser Att jämföra dokument eller delar av dem är en annat viktigt område: T.ex. innehåller de helt eller delvis samma text? (plagiat, andra problem med upprepad text) innehåller de helt eller delvis liknande text? är de innehållsmässigt lika? är de varandras översättningar? är de författade av samma person? 7 8

Informationshantering: sammandrag och -fattning Sammandrag: att ta ut de viktigaste delarna av en text så att man får en kortare text som återger det viktigaste av innehållet. Sammanfattning: att sätta samman en ny text som återger det viktigaste av innehållet i en given text. Informationshantering: indexering Ta ut ämnesetiketter och/eller nyckelord Dessa kan användas direkt av människor eller för digital sökning Mänsklig indexering är tidsödande, kräver speciell kompetens och leder till personligt färgad variation, och ofta otänkbar av volymskäl. 9 10 Dokumentsökning: sökmotorer En sökmotor är en mekanism för att söka ut dokument ur en samling av dokument. Motorns sökfrågesspråk tillåter oss att formulera sökkriterier av en viss typ. Sökmotorer är bland världens mest använda tekniska hjälpmedel. Dokumentsökning: sökmotorer (2) Motorn kommer att ordna träffar på något sätt (som eventuellt avspeglar en kvalitetsrangordning). Den genererar en search engine results page (SERP). Kvalitetsrangordningen är ytterst viktig då vi ofta kan få tusentals träffar, och antagligen bara har tålamod att titta på några få. 11 12 Sökmotor med söktermer och boolesk logik Grund: graford är antingen med eller inte med i dokument. Enklaste sökkriterium: ett givet graford matchar dokument där ordet är med. Sökord kan kombineras till sökkriterium med boolesk logik, t.ex.: inte K, K 1 och K 2, K 1 eller K 2. I enklaste fall får man träff eller inte träff, utan kvalitetsbedömning. Boolesk sökning Fördel: enkla principer med en genomskinlig och väl utforskad logik. Nackdel: ofta svår att koppla till sökkonsumentens intuitiva önskemål. Användarna måste ha en hel del erfarenhet och insikt för att kunna utnyttja en sökmotor av denna typ. 13 14 Moderna webbsökmotorer, typ Google Sökning på graford, viss morfologisk analys ( morfologisk konflation, typ word och words räknas som samma enhet), sökning på fraser. Booleska sökkriterier. Sofistikerade kvalitetsrangordningsmekanismer. (Det var det Google segrade på: Pagerank.) Smarta sätt att föreslå/använda annan fråga än den givna. 15 Kvalitetsrangordning, webbsökning Kvalitet / värde / relevans handlar om informationsinnehåll, vederhäftighet, aktualitet etc. Det är svårbedömda saker. Informationsleverantörer kan ha anledning att med mer eller mindre goda avsikter manipulera intrycket (sökmotoroptimering). Olika typer av kriterier kan användas. Webbsökmotorerna har ytterst sofistikerade (hemliga) algoritmer för att väga samman ett stort antal kriterier. 16

Kvalitetsrangordning, kriterier Textkriterier: Vilka ord/begrepp/fraser förekommer? Hur ofta inom dokumentet? Jämfört med andra dokument? Sökmotoranvändning: Brukar sökmotoranvändare vara nöjda med dokumentet givet en viss fråga? Externa kriterier: Länkar andra nätplatser till dokumentet? Kvalitetsrangordning, användarprofilering Sökmotortjänsterna försöker bygga modeller av vad användarna är intresserade av. Sökmotorföretagen kan betala för annonsutrymme och använda det utifrån kunskap om användaren (som kan spåras med ip-nummer). För att skaffa sig data om enskilda användare erbjuder man diverse tjänster gratis, t.ex. e-post, kalendrar, bloggar, etc. (Både bloggare och bloggläsare kan registreras.) 17 18 Sökmotorer, komponenter Behandling av dokumentsamlingen: Nya dokument (när de upptäcks): Analyseras (indexeras) representation (index) Behandling av frågor: Sökkriterium (som användaren formulerar): Analyseras (parsas) sökfråga (på intern form) Matchning: sökfråga mot dokumentrepresentationerna Dokumentklassificering Dokument skall hänföras till ett antal givna kategorier. (Typiskt kommer inte rangordning eller alternativ in i bilden.) Detta kan ibland göras med regelbaserade metoder och mänskligt regelskrivande. Maskininlärning utifrån uppmärkt korpus är dock en standardmetod idag. 19 20 Dokumentklassificering, maskininlärning Givet: korpus av kategorietiketterade dokument. Maskininlärningen ger en modell som kan tilldela osedda dokument en kategorietikett. Metoderna bygger på att dokument beskrivs utifrån särdrag med numeriska värden. Dokumentklassificering, särdrag Särdragen bygger ofta på förekomsten av ord/begrepp/fraser. De kan även bygga på mer abstrakta förhållanden, t.ex. meningslängd. Särdragets värde anger dess styrka. Kan bygga på absolut eller relativ frekvens i enskilda dokument eller på hur ovanliga de är (ovanliga ord starkare ). 21 22 Dokumentklassificering, särdragsvektorer De särdrag som urskiljts (för samtliga dokument) ordnas linjärt och varje dokument kan sedan representeras som en lång lista av tal (särdragsvektor). (Särdragsvärde nr n hamnar på plats n.) Vi har nu en algoritm som tilldelar varje dokument en bestämd särdragsvektor. Dokumentklassificering, träning Vår träningskorpus ger nu en samling kategori-särdragsvektor-par. Varje osett dokument (vars kategori återstår att bestämma) kan representeras som en särdragsvektor. En matematisk modell kan koppla särdragsvektorer till kategorier. 23 24

Dokumentklassificering, modeller Med en smart inlärningsalgoritm och smart typ av modell (vanlig typ: stödvektormaskiner ) kan man bygga modeller som tilldelar kategorier till godtyckliga särdragsvektorer (av rätt längd och med rätt typ av värden) utifrån en mängd kategori-särdragsvektor-par, som vi får ur vår träningskorpus. Vi kan nu klassificera osedda dokument. Dokumentklassificering, klassificering dokument särdragsalgoritm särdragsvektor klassificeringsmodell kategori 25 26 Klassificeringssärdrag En viktig aspekt av klassificering är vilka särdrag vi tar ut och vilka vikter vi sätter på dem. Samma särdrag kan även användas av rangordningsalgoritmer. Klassificeringssärdrag: graford Grafordsindexering förutsätter tokenisering (förstås). Hänsyn till gemen/versal? Hur göra med bindestreck? 27 28 Klassificeringssärdrag: längre enheter än ord N-gram: godtyckliga sekvenser av ord. Kollokationer: sekvenser av ord som hör samman. (N-gram där man kan se starka tendenser till samförekomst. Barack och Obama, ganska ovanliga graford, har en synnerligen stark tendens att komma direkt i den följden. Konflation av termer Morfologisk konflation : Olika graford kan samlas under samma särdrag (samma grundord / stam ), t.ex. genom stamning / ändelseklippning. Semantisk konflation : Synonymer kan jämställas under samma begrepp. T.ex. kan gris och svin anses vara samma djurart. Barack Obama och ett ensamt Barack eller Obama syftar antagligen på samma person (gäller många språk). 29 30 Vikter på särdrag Exempel på sätt att bestämma särdrags vikter: Frekvens/relativ frekvens i dokumentet. Ovanliga särdrag kan ges större vikt (t.ex. inverse document frequency ). Extremt ovanliga särdrag är av mindre värde eller kan störa inlärningen. Ofta plockar man bort väldigt vanliga (allmängiltiga) ord, som då kallas stoppord (kräver stoppordlista). Websökmotors rankning Tidiga websökmotorers rankning byggde på dokumentinterna särdrag. Man kunde lura dem t.ex. genom att upprepa nyckelord. Googles algoritm Pagerank (Larry Page och Sergey Brin) värderar en sida utifrån andra sidor som länkar till den. Olika länkande sidor kan ha olika tyngd. Möjliga andra kriterier på sidors värde: platsens ålder, status (uu.se är t.ex. en ärevördig plats), uppdateringstempo, diverse dokumentinterna mått. 31 32

Avslutande översikt Digital teknik för sökning och klassificering av information är (givetvis) en hörnsten i vårt informationssamhälle. Enorma mängder information föreligger i form av prat eller text (på naturligt språk). Att komma åt den fullt ut kräver mänsklig språk- och tolkningsförmåga. Informationsletande: finkornighet Sökning efter dokument. Sökning efter stycke/mening. Informationsextraktion: formalisering av funnen information. Data mining : härledande av ny information utifrån IE. 33 34 Informationsletande: djup Sökning efter dokument/stycke/mening kan vara mer ytcentrerat (graford, n-gram) eller innehållsorienterat ( genre, ämne, svar på fråga, etc.). Dokumentklassificering handlar typiskt om att sätta en innehållsorienterad etikett på ett dokument/textsjok. IE och text mining är detaljerat innhållsorienterade metoder, som fokuserar på fakta av bestämda former. Söktjänster Webbsöktjänster är en ny typ av massmedium. Man kan anse dem som (minst) lika viktiga som tidningar och TV. Användarprofilering och personlig anpassning blir ett allt viktigare inslag. Tio sanningar från Google: 1. Fokusera på användaren, så ordnar sig allt annat. (http://www.google.se/intl/sv/corporate/tenthings.html) 35 36 Framtiden IE, text mining och individanpassat genererade texter utifrån formaliserad information torde bli allt viktigare saker. Sammanfattning av text (och kanske även maskinöversättning) kan ses som ett specialfall av detta. Det kommer att bli allt svårare att skilja mänskligt författade texter från datorgenererade. 37