Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)



Relevanta dokument
Introduktion till språkteknologi

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Söka, värdera, referera

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Språkteknologi och Open Source

Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Dokumentrekommendationssystem och intranät

Word sense disambiguation med Svenskt OrdNät

TDDD02 Föreläsning 5 HT-2013

Partiell parsning Parsning som sökning

Tekniker för storskalig parsning

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

SÖKFRASANALYS PÅ GULA SIDORNA SANNA ÅSBERG LIU-KOGVET-D--06/05--SE

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

TDDD02 Föreläsning 6 HT-2013

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

Teoretisk lingvistik och datalingvistik. Robin Cooper

Informatik C, VT 2014 Informationssökning och referenshantering. Therese Nilsson

Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar

Sök artiklar i databaser för Vård- och hälsovetenskap

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Informationssökning Liberal Arts LIB40 V17

Lösningsförslag till tentamen i Språkteknologi 2D1418,

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

So ka artiklar och annan litteratur

Sri Lanka Association for Artificial Intelligence

MÖTESPLATS INFÖR FRAMTIDEN. Borås 8-9 oktober 2003

Tekniker för storskalig parsning

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Språkteknologi. Språkteknologi

Introduction to the Semantic Web. Eva Blomqvist

Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys

Structured Query Language (SQL)

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

- ett statistiskt fråga-svarsystem

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science

Innehåll. Informationssökning språkteknologiska hjälpmedel

Språk, datorer och textbehandling

SVENSK STANDARD SS-EN ISO 19108:2005/AC:2015

Klustring av svenska tidningsartiklar

En komparativ litteraturstudie av olika termkällor för query expansion

Optimering av webbsidor

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

Söka artiklar i CSA-databaser Handledning

Passage Retrieval En studie av index

hjälp av SAS Text Miner

TDDD02 Föreläsning 7 HT-2013

Grundläggande textanalys. Joakim Nivre

Joakim Nivre och Jörg Tiedemann

TFYY51 Informationssökning

Snabbguide till Cinahl

SVENSK STANDARD SS

Målet är att ge maskiner förmågan att plocka ut information ur

Information Retrieval. Information Retrieval (IR)

SPRÅKTEKNOLOGIPROGRAMMET

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster

Sammanfattning av informationssökning VT19

Sö ka artiklar öch annan litteratur

Informationssökning. Jörg Tiedemann. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

Svensk nationell datatjänst, SND BAS Online

Patientutbildning om diabetes En systematisk litteraturstudie

Random Indexing för vektorbaserad semantisk analys

Query expansion med semantiskt relaterade termer

SPRÅKTEKNOLOGIPROGRAMMET

Att designa en vetenskaplig studie

CogSum. Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Mål med lektionen! Repetera och befästa kunskaperna.

FÖRBÄTTRA DIN PREDIKTIVA MODELLERING MED MACHINE LEARNING I SAS ENTERPRISE MINER OSKAR ERIKSSON - ANALYSKONSULT

Ett energisystem med större andel vindkraft. Johnny Thomsen, Senior Vice President Product Management Vestas Wind Systems A/S

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Medicinsk Informatik VT 2004

Att söka information (med betoning på Internet)

Specifikation och tidsplan för examensarbete

översikt 1. informationsförädling är, typ: 2. Squirrelprototypen 3. möjligheter för framtiden [5] ICALL/2

Semantik. Semantik och språkteknologi

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Kunskapsgraf. Fredrik Åkerberg Tommy Kvant 1 Introduktion. 2 Relaterade projekt.

Utrymningshissar och utrymningsplatser utifrån de utrymmandes perspektiv. kristin andrée

Google Guide: Tips för sökoptimering

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I


Introduktion till biblioteket och informationssökning Språk och litteraturer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

Introduktion till språkteknologi. Datorstöd för språkgranskning

Europeana Data Model vad, varför och hur

Writing with context. Att skriva med sammanhang

Kursinformation och schema för Lingvistik 6 hp 729G08

Transkript:

Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR) Hur är IR-system uppbyggda? Hur utvärderas IR-system? Lingvistiska metoder inom IR 2. Informationsutvinning (Information Extraction, IE) Namnigenkänning Event extraction: utvinning av beskrivningar av en bestämd typ av händelse Hur är IE-system uppbyggda? 3. Vad behöver man kunna för att jobba med IR & IE? [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Syftet med språkteknologi [is] to decode the minimal, ambiguous, and implicit messages encoded in a language, using only a fraction of all the background information that humans have. (Vossen, 2003) Varför behövs språkteknologer inom IR och IE? Notice that the set of different words of a language is fixed by a constant (for example, the number of different English words is finite). [ ] [M]any authors argue that the number keeps growing anyway because of typing or spelling errors. (Baeza-Yates & Ribeiro-Neto, 1999: Modern Information Retrieval) [IR] Introduktion 1: Informationssökning [Information retrieval is] the science of finding objects in any media relevant to a user query. (Tzoukermann et al., 2003) any media : text, bild, ljud, film finding objects [ ] relevant to a user query : förprocessning, indexering och matchning i olika typer av datasamlingar (statiska eller dynamiska) user : olika typer av användare har olika informationsbehov relevant : relevans, täckning och precision + olika typer av maskiner/gränssnitt: datorer, mobiltelefoner 1

[IR] Terminologi [IR] Standardmodell Document = en avgränsad enhet Collection = en dokumentsamling, den totala mängden tillgängliga dokument i databasen Term = en lexikal enhet i ett dokument (ett ord, två ord, osv.) Query = sökfråga, användarens informationsbehov formulerat i ett visst format Index = en lista av termer med pekare till de dokument termerna förekommer i [IR] Standardmodell (1) [IR] Textanalys: stop word removal Textanalys: för utvinning av indextermer Ta bort funktionsord och andra vanligt förekommande ord (stop word removal) Morfologisk analys på låg nivå: stemming (alt. lemmatisering) [IR] Textanalys: stemming [IR] Standardmodell (1) Stemming text(s) 11 + 8 document(s) 10 + 8 index(ing) 16 +10 Ny frekvenslista: 29 text(s) 26 index(ing) 18 document(s) 18 terms Textanalys: för utvinning av indextermer Ta bort funktionsord och andra vanligt förekommande ord (stop word removal) Morfologisk analys (på låg nivå): stemming (alt. lemmatisering) Genom indexering skapas en lista av pekare mellan termer och dokument, en representation av dokumenten i samlingen 2

[IR] Standardmodell [IR] Standardmodell (2) Användaren och användarens informationsbehov Omvandlas till förfrågan av användaren Analys av användarens förfrågan exempel på möjliga språkteknologiska tillägg: a) stavningskontroll b) utökning med synonymer och/eller underordnade begrepp c) precisering genom disambiguering ( bat, Apple, LaTeX ) en sökfråga i ett visst format [IR] Standardmodell [IR] Standardmodell (3) Genom matchning hämtas dokument som innehåller en given sökfråga från indexet, via pekaren mellan term och dokument Alla hämtade dokument rankas enligt ett visst mått på relevans Strikt definitionen: termen/termerna i sökfrågan förekommer i dokumentet i korrekt ordning Mindre strikt: termerna i sökfrågan förekommer i dokumentet, i vilken ordning som helst (bag of words) [IR] Statistiska matchningsmetoder [IR] Rankningsprinciper (1) Booleansk matchning Sökfrågor: nyckelord sammankopplade genom logiska operatorer (AND, OR, NOT) Binära beslut angående relevans The vector space model Dokument och sökfråga: vektorer i en rymd Resultat: rankad mängd dokument Probabilistic models Sökfråga: beskrivning av den ideala svarsmängden (mängden av relevanta dokument) Resultaten rankas efter hur stor sannolikheten är att de är relevanta för sökfrågan Dokument D rankas högre än dokumenten E, F N om D innehåller fler söktermer om söktermerna förekommer mer frekvent i D om D är kortare, men ändå innehåller söktermerna om söktermerna förekommer närmare varandra i D om söktermerna förekommer tidigare i D 3

[IR] Rankningsprinciper (2) [IR] Utvärdering (1) (Forts. Följande gäller särskilt webbsidor): om D är nyare om fler externa dokument länkar till D (t ex Google PageRank) om D läses/laddas ner oftare om Ds ägare betalar mer Täckning (recall) Andelen återfunna dokument av alla relevanta dokument i dokumentsamlingen Är systemet bra på att hitta mycket? Precision Andelen relevanta dokument av alla återfunna dokument Hur mycket skräp bli det? [IR] Utvärdering (2) [IR] Utvärdering (3) Relevans bedöms subjektivt utifrån användarens informationsbehov och preferenser korrekt ämne? uppdaterad information? från en trovärdig källa? Uppfyller systemet användaren önskemål i förhållande till hur användaren avser att använda informationen? Ca 13 700 000 (2004: 2 770 000!) Googleträffar för sökfrågan information retrieval Vilken precision har resultatet av denna sökning? Hur kan man beräkna täckningen? och bryr sig användarna? Nej! de flesta användare tittar bara på topp 10! [IR] Metoder för att öka precisionen [IR] Andra IR-relaterade problem Inom IR Sökfråga Lista av dokument för kontroll av (den mänskliga) användaren (Google) Sökfråga Lista av kluster av dokument för kontroll av användaren (Clusty, http://clusty.com/) Sökfråga Lista av dokument av en viss typ (+ referenser), t ex vetenskapliga artiklar publicerade av universitet, organisationer (CiteSeer) och inom andra relaterad problemområden: Inom Answer Retrieval Sökfråga Lista med svar (specifika stycken av dokument) för kontroll av användaren (SUiS) Inom Fact Retrieval Sökfråga Lista med fakta för tillägg till databas (ZoomInfo, http://www.zoominfo.com/) Document categorization/filtering/routing: klassificering av dokument enligt vissa fördefinierade kriterier: Skilja e-post från spam Skicka vidare e-post till korrekt mottagare efter innehåll (offertförfrågningar, order, klagomål, produktionformation, allmänna frågor, etc ) Text mining: utvinna ny information (dvs information som inte nämns explicit) i ett textdokument Text summarization SweSum SweSum 4

[IR] och språkteknologi [IR] Lingvistisk information (1) IR handlar om enorma mängder lagrad text Effektiv åtkomst Kostnadseffektiv lagring Om språkteknologiska metoder ska läggas till dagens IR-system krävs robusthet och effektivitet: The key challenge is that any module must be robust and capable of handling megabytes of information without slowing down the overall system. (Tzoukermann et al., 2003) Identifiering av fraser: By adding simple collocations to the term list, retrieval increased by 10 percent (Buckley et al., 1995) Ordklasstaggning, morfologiska analys (stemming, lemmatisering) och ytparsning (NP-chunkning) kan användas för att expandera och slå samman termer bok, böcker bok information, retrieval information retrieval [IR]Lingvistisk information (2) [IR] Sammanfattning Thesaurusar och ontologier Allmänt: WordNet, Svenska OrdNät Domänspecifikt: UMLS, Common Procurement Vocabulary Utökning av termer i sökfrågor genom tillägg av t ex synonymer, hypernymer, hyponymer Semantisk disambiguering a) av sökfrågor (t ex genom dialog med användaren) b) av indextermer De flesta IR-system använder statistiska metoder för matchning och rankning av dokument enligt något mått på relevans Precision och täckning används ofta för utvärdering Morfologisk och syntaktisk information kan användas för att förbättra performansen Semantisk information kan användas för disambiguering av både sökfråga och indextermer, samt för utökning av sökfrågan MEN språkteknologiska metoder måste vara effektiva och robusta om det ska löna sig att lägga till existerande IR-system detta är orsaken till att sådana metoder är relativt ovanliga i dagsläget! [IR] Framtida utmaningar för STP:are Effektiv och robust textanalys IR-dialogsystem, där systemet kan hjälpa användaren att söka mer effektivt Avancerad textanalys Diskursanalys (segmentering, fokus/topic, koreferens) Text summarization Information Extraction 2: Informationsutvinning 5

[IE] Introduktion (1) [IE] Namnigenkänning (1) Information Extraction is the automatic identification of selected types of entities, relations, or events in free text (Grishman, 2003) Namnigenkänning (Named Entity Recognition) innebär: 1. identifiering: denna sträng är ett namn 2. klassificering: namnet är av typen X Vanligt förekommande klassificeringscheman skiljer mellan: personer företag/organisationer platser produkter [IE] Klassificering av namn [IE] Namnigenkänning (2) Trademark: VOLVO Brand name: Volvo (Nilsson & Malmgren, 2006) Trade Name: Volvo Car Corporation Dual-Function brand names: Product: Volvo C70 Service: Care by Volvo Regelbaserade (skrivna för hand): Reguljära uttryck capitalized-word + Corp Ford Corp Mr. capitalized-word Mr. Ford Namnlistor: Ford, Reagan; Abe, Ada; Wisconsin, New Delhi Bygga på kontextregler: t ex statistik om frekventa kollokationer hämtade ur en namnannoterad korpus [IE] Namnigenkänning (3) [IE] Event Extraction Maskininlärning ist. för handskrivna algoritmer [C]omputer algorithms that improve automatically through experience. (Mitchell, 1997) Träningsdata + testdata en modell av klassificeringsproblemet som kan omvandlas till en metod för klassificering ML kan vara övervakad eller oövervakad: övervakad kräver (hand)annoterad data (dyrt!) oövervakad arbetar med rå data och några få ledtrådar till att börja med Event: management succession Harriet Smith, vice president of Ford Co., has been appointed president of Daimler-Chrystler Co. Templates (i.e., database records) Person: Harriet Smith Position: vice president Company: Ford Co. Start/leave job: leave Person: Harriet Smith Position: president Company: Daimler- Chrystler Co Start/leave job: start 6

[IE] Event Extraction [IE] Event Extraction Reguljära uttryck: Ford appointed Smith as president Cap + appointed + Cap + as president Tyvärr är naturligt språk inte så reguljärt... Watson resigned as president of IBM, and Smith succeeded him Vad måste ett IE-system kunna hantera? (Grishman, 2003): Named entity recognition Company descriptors and modifiers Sentence modifiers Tense Clause structure Nominalzation Position names Conjunction Anaphoric reference Inference [IE] Event Extraction: Exempel [IE] Sammanfattning ORG PERS NP=ORG NP=PERS NP=president NP=ORG VG=appoint NP=PERS NP=president EVENT: PERSON: Smith POSITION: president COMPANY: Ford START/LEAVE JOB: start Informationsutvinning Relevanta stycken information extraheras ur texter, t ex namn på personer, eller komplexa relationer som beskriver företagssammanslagningar eller andra händelser. Resultatet lagras i en databas för vidare åtkomst. IE är inte möjligt utan avancerad språkteknologi! IE kräver (precis som IR) effektiva och robusta metoder för att bli kostanadseffektivt! [IR & IE] Sammanfattning Vad behöver man kunna för att jobba med IR & IE? Kunskaper i statistik, mängdlära (matematisk lingvistik) och programmering Kunskaper i lingvistik! Från morfologi till semantik till analys av relationer på diskursnivå Intresse för användarfrågor: Vem är användaren? Vad vill användaren ha? Litteratur i urval Baeza-Yates & Ribiero-Neto (1999) Modern Information Retrieval. Addison Wesley. Grishman (2003) Information Extraction. In: The Oxford Handbook of Computational Linguistics, ed. Ruslan Mitkov. Oxford University Press. Karlgren (2000): Information Retrieval: Statistics and Linguistics. SICS. Tzoukermann et al. (2003) Information Retrieval. In: OHCL. 7