Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar. Hjälpa en användare att klassificera dokument. Hjälpa en användare att värdera dokument. Mats Dahllöf Institutionen för lingvistik och filologi December 2008 1 2 Informationshantering: dokumentsökning Problem: Vi har ofta tillgång till stort antal (Internet, många miljoner) dokument och ett problem är att hitta dem vi för tillfället är intresserade av. (Typ av information retrieval.) Hur ser sökönskemålet ut? Vill vi hitta ett bestämt dokument (som vi tror vi vet finns)? Vill vi ha en rangordning efter kvalitet / värde / relevans (och vad är det)? Informationshantering: detaljsökning Vi kan också vilja hitta komponenter inom dokument. (Annan typ av information retrieval.) Typer av tänkbara sökönskemål: omnämnanden av en viss person/visst objekt. publikationsår (anges ofta i ett dokument) förfallodatum i en faktura. bemötanden av motargument (antagligen svårt) 3 4 Informationshantering: informationsextraktion Informationsextraktion är sådan detaljsökning där funnen information dessutom formaliseras, typiskt för att kunna hanteras i en databas och med intelligenta metoder. Exempel: Extraktion av enstaka uttryck av viss typ, t.ex. namn eller årtal. Fakta, av typer som Person är född År, eller Person är anställd vid Företag, Företag1 förvärvar Företag2 för en Köpeskilling en viss Dag. Informationshantering: text mining Text mining utgår från informationsextraktion och försöker ställa samman extraherad kunskap (från olika källor) till ny kunskap. T.ex. kan man sammanställa fakta om gener och proteiner i bioinformatisk forskning. 5 6 Informationshantering: dokumentklassificering Vi vill hänföra dokument till ett antal givna kategorier (en taxonomi), t.ex. bestämma innehållskategori. seriösa e-brev kontra spam. bestämma typ av ärende, genre, språk, typ av avsändare, etc. (t.ex. fiktion kontra faktatext, man eller kvinna som författare) Dokumentjämförelser Att jämföra dokument eller delar av dem är en annat viktigt område: T.ex. innehåller de helt eller delvis samma text? (plagiat, andra problem med upprepad text) innehåller de helt eller delvis liknande text? är de innehållsmässigt lika? är de varandras översättningar? är de författade av samma person? 7 8
Informationshantering: sammandrag och -fattning Sammandrag: att ta ut de viktigaste delarna av en text så att man får en kortare text som återger det viktigaste av innehållet. Sammanfattning: att sätta samman en ny text som återger det viktigaste av innehållet i en given text. Informationshantering: indexering Ta ut ämnesetiketter och/eller nyckelord Dessa kan användas direkt av människor eller för digital sökning Mänsklig indexering är tidsödande, kräver speciell kompetens och leder till personligt färgad variation, och ofta otänkbar av volymskäl. 9 10 Dokumentsökning: sökmotorer En sökmotor är en mekanism för att söka ut dokument ur en samling av dokument. Motorns sökfrågesspråk tillåter oss att formulera sökkriterier av en viss typ. Sökmotorer är bland världens mest använda tekniska hjälpmedel. Dokumentsökning: sökmotorer (2) Motorn kommer att ordna träffar på något sätt (som eventuellt avspeglar en kvalitetsrangordning). Den genererar en search engine results page (SERP). Kvalitetsrangordningen är ytterst viktig då vi ofta kan få tusentals träffar, och antagligen bara har tålamod att titta på några få. 11 12 Sökmotor med söktermer och boolesk logik Grund: graford är antingen med eller inte med i dokument. Enklaste sökkriterium: ett givet graford matchar dokument där ordet är med. Sökord kan kombineras till sökkriterium med boolesk logik, t.ex.: inte K, K 1 och K 2, K 1 eller K 2. I enklaste fall får man träff eller inte träff, utan kvalitetsbedömning. Boolesk sökning Fördel: enkla principer med en genomskinlig och väl utforskad logik. Nackdel: ofta svår att koppla till sökkonsumentens intuitiva önskemål. Användarna måste ha en hel del erfarenhet och insikt för att kunna utnyttja en sökmotor av denna typ. 13 14 Moderna webbsökmotorer, typ Google Sökning på graford, viss morfologisk analys ( morfologisk konflation, typ word och words räknas som samma enhet), sökning på fraser. Booleska sökkriterier. Sofistikerade kvalitetsrangordningsmekanismer. (Det var det Google segrade på: Pagerank.) Smarta sätt att föreslå/använda annan fråga än den givna. 15 Kvalitetsrangordning, webbsökning Kvalitet / värde / relevans handlar om informationsinnehåll, vederhäftighet, aktualitet etc. Det är svårbedömda saker. Informationsleverantörer kan ha anledning att med mer eller mindre goda avsikter manipulera intrycket (sökmotoroptimering). Olika typer av kriterier kan användas. Webbsökmotorerna har ytterst sofistikerade (hemliga) algoritmer för att väga samman ett stort antal kriterier. 16
Kvalitetsrangordning, kriterier Textkriterier: Vilka ord/begrepp/fraser förekommer? Hur ofta inom dokumentet? Jämfört med andra dokument? Sökmotoranvändning: Brukar sökmotoranvändare vara nöjda med dokumentet givet en viss fråga? Externa kriterier: Länkar andra nätplatser till dokumentet? Kvalitetsrangordning, användarprofilering Sökmotortjänsterna försöker bygga modeller av vad användarna är intresserade av. Sökmotorföretagen kan betala för annonsutrymme och använda det utifrån kunskap om användaren (som kan spåras med ip-nummer). För att skaffa sig data om enskilda användare erbjuder man diverse tjänster gratis, t.ex. e-post, kalendrar, bloggar, etc. (Både bloggare och bloggläsare kan registreras.) 17 18 Sökmotorer, komponenter Behandling av dokumentsamlingen: Nya dokument (när de upptäcks): Analyseras (indexeras) representation (index) Behandling av frågor: Sökkriterium (som användaren formulerar): Analyseras (parsas) sökfråga (på intern form) Matchning: sökfråga mot dokumentrepresentationerna Dokumentklassificering Dokument skall hänföras till ett antal givna kategorier. (Typiskt kommer inte rangordning eller alternativ in i bilden.) Detta kan ibland göras med regelbaserade metoder och mänskligt regelskrivande. Maskininlärning utifrån uppmärkt korpus är dock en standardmetod idag. 19 20 Dokumentklassificering, maskininlärning Givet: korpus av kategorietiketterade dokument. Maskininlärningen ger en modell som kan tilldela osedda dokument en kategorietikett. Metoderna bygger på att dokument beskrivs utifrån särdrag med numeriska värden. Dokumentklassificering, särdrag Särdragen bygger ofta på förekomsten av ord/begrepp/fraser. De kan även bygga på mer abstrakta förhållanden, t.ex. meningslängd. Särdragets värde anger dess styrka. Kan bygga på absolut eller relativ frekvens i enskilda dokument eller på hur ovanliga de är (ovanliga ord starkare ). 21 22 Dokumentklassificering, särdragsvektorer De särdrag som urskiljts (för samtliga dokument) ordnas linjärt och varje dokument kan sedan representeras som en lång lista av tal (särdragsvektor). (Särdragsvärde nr n hamnar på plats n.) Vi har nu en algoritm som tilldelar varje dokument en bestämd särdragsvektor. Dokumentklassificering, träning Vår träningskorpus ger nu en samling kategori-särdragsvektor-par. Varje osett dokument (vars kategori återstår att bestämma) kan representeras som en särdragsvektor. En matematisk modell kan koppla särdragsvektorer till kategorier. 23 24
Dokumentklassificering, modeller Med en smart inlärningsalgoritm och smart typ av modell (vanlig typ: stödvektormaskiner ) kan man bygga modeller som tilldelar kategorier till godtyckliga särdragsvektorer (av rätt längd och med rätt typ av värden) utifrån en mängd kategori-särdragsvektor-par, som vi får ur vår träningskorpus. Vi kan nu klassificera osedda dokument. Dokumentklassificering, klassificering dokument särdragsalgoritm särdragsvektor klassificeringsmodell kategori 25 26 Klassificeringssärdrag En viktig aspekt av klassificering är vilka särdrag vi tar ut och vilka vikter vi sätter på dem. Samma särdrag kan även användas av rangordningsalgoritmer. Klassificeringssärdrag: graford Grafordsindexering förutsätter tokenisering (förstås). Hänsyn till gemen/versal? Hur göra med bindestreck? 27 28 Klassificeringssärdrag: längre enheter än ord N-gram: godtyckliga sekvenser av ord. Kollokationer: sekvenser av ord som hör samman. (N-gram där man kan se starka tendenser till samförekomst. Barack och Obama, ganska ovanliga graford, har en synnerligen stark tendens att komma direkt i den följden. Konflation av termer Morfologisk konflation : Olika graford kan samlas under samma särdrag (samma grundord / stam ), t.ex. genom stamning / ändelseklippning. Semantisk konflation : Synonymer kan jämställas under samma begrepp. T.ex. kan gris och svin anses vara samma djurart. Barack Obama och ett ensamt Barack eller Obama syftar antagligen på samma person (gäller många språk). 29 30 Vikter på särdrag Exempel på sätt att bestämma särdrags vikter: Frekvens/relativ frekvens i dokumentet. Ovanliga särdrag kan ges större vikt (t.ex. inverse document frequency ). Extremt ovanliga särdrag är av mindre värde eller kan störa inlärningen. Ofta plockar man bort väldigt vanliga (allmängiltiga) ord, som då kallas stoppord (kräver stoppordlista). Websökmotors rankning Tidiga websökmotorers rankning byggde på dokumentinterna särdrag. Man kunde lura dem t.ex. genom att upprepa nyckelord. Googles algoritm Pagerank (Larry Page och Sergey Brin) värderar en sida utifrån andra sidor som länkar till den. Olika länkande sidor kan ha olika tyngd. Möjliga andra kriterier på sidors värde: platsens ålder, status (uu.se är t.ex. en ärevördig plats), uppdateringstempo, diverse dokumentinterna mått. 31 32
Avslutande översikt Digital teknik för sökning och klassificering av information är (givetvis) en hörnsten i vårt informationssamhälle. Enorma mängder information föreligger i form av prat eller text (på naturligt språk). Att komma åt den fullt ut kräver mänsklig språk- och tolkningsförmåga. Informationsletande: finkornighet Sökning efter dokument. Sökning efter stycke/mening. Informationsextraktion: formalisering av funnen information. Data mining : härledande av ny information utifrån IE. 33 34 Informationsletande: djup Sökning efter dokument/stycke/mening kan vara mer ytcentrerat (graford, n-gram) eller innehållsorienterat ( genre, ämne, svar på fråga, etc.). Dokumentklassificering handlar typiskt om att sätta en innehållsorienterad etikett på ett dokument/textsjok. IE och text mining är detaljerat innhållsorienterade metoder, som fokuserar på fakta av bestämda former. Söktjänster Webbsöktjänster är en ny typ av massmedium. Man kan anse dem som (minst) lika viktiga som tidningar och TV. Användarprofilering och personlig anpassning blir ett allt viktigare inslag. Tio sanningar från Google: 1. Fokusera på användaren, så ordnar sig allt annat. (http://www.google.se/intl/sv/corporate/tenthings.html) 35 36 Framtiden IE, text mining och individanpassat genererade texter utifrån formaliserad information torde bli allt viktigare saker. Sammanfattning av text (och kanske även maskinöversättning) kan ses som ett specialfall av detta. Det kommer att bli allt svårare att skilja mänskligt författade texter från datorgenererade. 37