Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR) Hur är IR-system uppbyggda? Hur utvärderas IR-system? Lingvistiska metoder inom IR 2. Informationsutvinning (Information Extraction, IE) Namnigenkänning Event extraction: utvinning av beskrivningar av en bestämd typ av händelse Hur är IE-system uppbyggda? 3. Vad behöver man kunna för att jobba med IR & IE? [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Syftet med språkteknologi [is] to decode the minimal, ambiguous, and implicit messages encoded in a language, using only a fraction of all the background information that humans have. (Vossen, 2003) Varför behövs språkteknologer inom IR och IE? Notice that the set of different words of a language is fixed by a constant (for example, the number of different English words is finite). [ ] [M]any authors argue that the number keeps growing anyway because of typing or spelling errors. (Baeza-Yates & Ribeiro-Neto, 1999: Modern Information Retrieval) [IR] Introduktion 1: Informationssökning [Information retrieval is] the science of finding objects in any media relevant to a user query. (Tzoukermann et al., 2003) any media : text, bild, ljud, film finding objects [ ] relevant to a user query : förprocessning, indexering och matchning i olika typer av datasamlingar (statiska eller dynamiska) user : olika typer av användare har olika informationsbehov relevant : relevans, täckning och precision + olika typer av maskiner/gränssnitt: datorer, mobiltelefoner 1
[IR] Terminologi [IR] Standardmodell Document = en avgränsad enhet Collection = en dokumentsamling, den totala mängden tillgängliga dokument i databasen Term = en lexikal enhet i ett dokument (ett ord, två ord, osv.) Query = sökfråga, användarens informationsbehov formulerat i ett visst format Index = en lista av termer med pekare till de dokument termerna förekommer i [IR] Standardmodell (1) [IR] Textanalys: stop word removal Textanalys: för utvinning av indextermer Ta bort funktionsord och andra vanligt förekommande ord (stop word removal) Morfologisk analys på låg nivå: stemming (alt. lemmatisering) [IR] Textanalys: stemming [IR] Standardmodell (1) Stemming text(s) 11 + 8 document(s) 10 + 8 index(ing) 16 +10 Ny frekvenslista: 29 text(s) 26 index(ing) 18 document(s) 18 terms Textanalys: för utvinning av indextermer Ta bort funktionsord och andra vanligt förekommande ord (stop word removal) Morfologisk analys (på låg nivå): stemming (alt. lemmatisering) Genom indexering skapas en lista av pekare mellan termer och dokument, en representation av dokumenten i samlingen 2
[IR] Standardmodell [IR] Standardmodell (2) Användaren och användarens informationsbehov Omvandlas till förfrågan av användaren Analys av användarens förfrågan exempel på möjliga språkteknologiska tillägg: a) stavningskontroll b) utökning med synonymer och/eller underordnade begrepp c) precisering genom disambiguering ( bat, Apple, LaTeX ) en sökfråga i ett visst format [IR] Standardmodell [IR] Standardmodell (3) Genom matchning hämtas dokument som innehåller en given sökfråga från indexet, via pekaren mellan term och dokument Alla hämtade dokument rankas enligt ett visst mått på relevans Strikt definitionen: termen/termerna i sökfrågan förekommer i dokumentet i korrekt ordning Mindre strikt: termerna i sökfrågan förekommer i dokumentet, i vilken ordning som helst (bag of words) [IR] Statistiska matchningsmetoder [IR] Rankningsprinciper (1) Booleansk matchning Sökfrågor: nyckelord sammankopplade genom logiska operatorer (AND, OR, NOT) Binära beslut angående relevans The vector space model Dokument och sökfråga: vektorer i en rymd Resultat: rankad mängd dokument Probabilistic models Sökfråga: beskrivning av den ideala svarsmängden (mängden av relevanta dokument) Resultaten rankas efter hur stor sannolikheten är att de är relevanta för sökfrågan Dokument D rankas högre än dokumenten E, F N om D innehåller fler söktermer om söktermerna förekommer mer frekvent i D om D är kortare, men ändå innehåller söktermerna om söktermerna förekommer närmare varandra i D om söktermerna förekommer tidigare i D 3
[IR] Rankningsprinciper (2) [IR] Utvärdering (1) (Forts. Följande gäller särskilt webbsidor): om D är nyare om fler externa dokument länkar till D (t ex Google PageRank) om D läses/laddas ner oftare om Ds ägare betalar mer Täckning (recall) Andelen återfunna dokument av alla relevanta dokument i dokumentsamlingen Är systemet bra på att hitta mycket? Precision Andelen relevanta dokument av alla återfunna dokument Hur mycket skräp bli det? [IR] Utvärdering (2) [IR] Utvärdering (3) Relevans bedöms subjektivt utifrån användarens informationsbehov och preferenser korrekt ämne? uppdaterad information? från en trovärdig källa? Uppfyller systemet användaren önskemål i förhållande till hur användaren avser att använda informationen? Ca 13 700 000 (2004: 2 770 000!) Googleträffar för sökfrågan information retrieval Vilken precision har resultatet av denna sökning? Hur kan man beräkna täckningen? och bryr sig användarna? Nej! de flesta användare tittar bara på topp 10! [IR] Metoder för att öka precisionen [IR] Andra IR-relaterade problem Inom IR Sökfråga Lista av dokument för kontroll av (den mänskliga) användaren (Google) Sökfråga Lista av kluster av dokument för kontroll av användaren (Clusty, http://clusty.com/) Sökfråga Lista av dokument av en viss typ (+ referenser), t ex vetenskapliga artiklar publicerade av universitet, organisationer (CiteSeer) och inom andra relaterad problemområden: Inom Answer Retrieval Sökfråga Lista med svar (specifika stycken av dokument) för kontroll av användaren (SUiS) Inom Fact Retrieval Sökfråga Lista med fakta för tillägg till databas (ZoomInfo, http://www.zoominfo.com/) Document categorization/filtering/routing: klassificering av dokument enligt vissa fördefinierade kriterier: Skilja e-post från spam Skicka vidare e-post till korrekt mottagare efter innehåll (offertförfrågningar, order, klagomål, produktionformation, allmänna frågor, etc ) Text mining: utvinna ny information (dvs information som inte nämns explicit) i ett textdokument Text summarization SweSum SweSum 4
[IR] och språkteknologi [IR] Lingvistisk information (1) IR handlar om enorma mängder lagrad text Effektiv åtkomst Kostnadseffektiv lagring Om språkteknologiska metoder ska läggas till dagens IR-system krävs robusthet och effektivitet: The key challenge is that any module must be robust and capable of handling megabytes of information without slowing down the overall system. (Tzoukermann et al., 2003) Identifiering av fraser: By adding simple collocations to the term list, retrieval increased by 10 percent (Buckley et al., 1995) Ordklasstaggning, morfologiska analys (stemming, lemmatisering) och ytparsning (NP-chunkning) kan användas för att expandera och slå samman termer bok, böcker bok information, retrieval information retrieval [IR]Lingvistisk information (2) [IR] Sammanfattning Thesaurusar och ontologier Allmänt: WordNet, Svenska OrdNät Domänspecifikt: UMLS, Common Procurement Vocabulary Utökning av termer i sökfrågor genom tillägg av t ex synonymer, hypernymer, hyponymer Semantisk disambiguering a) av sökfrågor (t ex genom dialog med användaren) b) av indextermer De flesta IR-system använder statistiska metoder för matchning och rankning av dokument enligt något mått på relevans Precision och täckning används ofta för utvärdering Morfologisk och syntaktisk information kan användas för att förbättra performansen Semantisk information kan användas för disambiguering av både sökfråga och indextermer, samt för utökning av sökfrågan MEN språkteknologiska metoder måste vara effektiva och robusta om det ska löna sig att lägga till existerande IR-system detta är orsaken till att sådana metoder är relativt ovanliga i dagsläget! [IR] Framtida utmaningar för STP:are Effektiv och robust textanalys IR-dialogsystem, där systemet kan hjälpa användaren att söka mer effektivt Avancerad textanalys Diskursanalys (segmentering, fokus/topic, koreferens) Text summarization Information Extraction 2: Informationsutvinning 5
[IE] Introduktion (1) [IE] Namnigenkänning (1) Information Extraction is the automatic identification of selected types of entities, relations, or events in free text (Grishman, 2003) Namnigenkänning (Named Entity Recognition) innebär: 1. identifiering: denna sträng är ett namn 2. klassificering: namnet är av typen X Vanligt förekommande klassificeringscheman skiljer mellan: personer företag/organisationer platser produkter [IE] Klassificering av namn [IE] Namnigenkänning (2) Trademark: VOLVO Brand name: Volvo (Nilsson & Malmgren, 2006) Trade Name: Volvo Car Corporation Dual-Function brand names: Product: Volvo C70 Service: Care by Volvo Regelbaserade (skrivna för hand): Reguljära uttryck capitalized-word + Corp Ford Corp Mr. capitalized-word Mr. Ford Namnlistor: Ford, Reagan; Abe, Ada; Wisconsin, New Delhi Bygga på kontextregler: t ex statistik om frekventa kollokationer hämtade ur en namnannoterad korpus [IE] Namnigenkänning (3) [IE] Event Extraction Maskininlärning ist. för handskrivna algoritmer [C]omputer algorithms that improve automatically through experience. (Mitchell, 1997) Träningsdata + testdata en modell av klassificeringsproblemet som kan omvandlas till en metod för klassificering ML kan vara övervakad eller oövervakad: övervakad kräver (hand)annoterad data (dyrt!) oövervakad arbetar med rå data och några få ledtrådar till att börja med Event: management succession Harriet Smith, vice president of Ford Co., has been appointed president of Daimler-Chrystler Co. Templates (i.e., database records) Person: Harriet Smith Position: vice president Company: Ford Co. Start/leave job: leave Person: Harriet Smith Position: president Company: Daimler- Chrystler Co Start/leave job: start 6
[IE] Event Extraction [IE] Event Extraction Reguljära uttryck: Ford appointed Smith as president Cap + appointed + Cap + as president Tyvärr är naturligt språk inte så reguljärt... Watson resigned as president of IBM, and Smith succeeded him Vad måste ett IE-system kunna hantera? (Grishman, 2003): Named entity recognition Company descriptors and modifiers Sentence modifiers Tense Clause structure Nominalzation Position names Conjunction Anaphoric reference Inference [IE] Event Extraction: Exempel [IE] Sammanfattning ORG PERS NP=ORG NP=PERS NP=president NP=ORG VG=appoint NP=PERS NP=president EVENT: PERSON: Smith POSITION: president COMPANY: Ford START/LEAVE JOB: start Informationsutvinning Relevanta stycken information extraheras ur texter, t ex namn på personer, eller komplexa relationer som beskriver företagssammanslagningar eller andra händelser. Resultatet lagras i en databas för vidare åtkomst. IE är inte möjligt utan avancerad språkteknologi! IE kräver (precis som IR) effektiva och robusta metoder för att bli kostanadseffektivt! [IR & IE] Sammanfattning Vad behöver man kunna för att jobba med IR & IE? Kunskaper i statistik, mängdlära (matematisk lingvistik) och programmering Kunskaper i lingvistik! Från morfologi till semantik till analys av relationer på diskursnivå Intresse för användarfrågor: Vem är användaren? Vad vill användaren ha? Litteratur i urval Baeza-Yates & Ribiero-Neto (1999) Modern Information Retrieval. Addison Wesley. Grishman (2003) Information Extraction. In: The Oxford Handbook of Computational Linguistics, ed. Ruslan Mitkov. Oxford University Press. Karlgren (2000): Information Retrieval: Statistics and Linguistics. SICS. Tzoukermann et al. (2003) Information Retrieval. In: OHCL. 7