Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)
|
|
- Ulla-Britt Bengtsson
- för 9 år sedan
- Visningar:
Transkript
1 Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, : MOTIST, UU 1. Informationssökning (Information Retrieval, IR) Hur är IR-system uppbyggda? Hur utvärderas IR-system? Lingvistiska metoder inom IR 2. Informationsutvinning (Information Extraction, IE) Namnigenkänning Event extraction: utvinning av beskrivningar av en bestämd typ av händelse Hur är IE-system uppbyggda? 3. Vad behöver man kunna för att jobba med IR & IE? [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Syftet med språkteknologi [is] to decode the minimal, ambiguous, and implicit messages encoded in a language, using only a fraction of all the background information that humans have. (Vossen, 2003) Varför behövs språkteknologer inom IR och IE? Notice that the set of different words of a language is fixed by a constant (for example, the number of different English words is finite). [ ] [M]any authors argue that the number keeps growing anyway because of typing or spelling errors. (Baeza-Yates & Ribeiro-Neto, 1999: Modern Information Retrieval) [IR] Introduktion 1: Informationssökning [Information retrieval is] the science of finding objects in any media relevant to a user query. (Tzoukermann et al., 2003) any media : text, bild, ljud, film finding objects [ ] relevant to a user query : förprocessning, indexering och matchning i olika typer av datasamlingar (statiska eller dynamiska) user : olika typer av användare har olika informationsbehov relevant : relevans, täckning och precision + olika typer av maskiner/gränssnitt: datorer, mobiltelefoner 1
2 [IR] Terminologi [IR] Standardmodell Document = en avgränsad enhet Collection = en dokumentsamling, den totala mängden tillgängliga dokument i databasen Term = en lexikal enhet i ett dokument (ett ord, två ord, osv.) Query = sökfråga, användarens informationsbehov formulerat i ett visst format Index = en lista av termer med pekare till de dokument termerna förekommer i [IR] Standardmodell (1) [IR] Textanalys: stop word removal Textanalys: för utvinning av indextermer Ta bort funktionsord och andra vanligt förekommande ord (stop word removal) Morfologisk analys på låg nivå: stemming (alt. lemmatisering) [IR] Textanalys: stemming [IR] Standardmodell (1) Stemming text(s) document(s) index(ing) Ny frekvenslista: 29 text(s) 26 index(ing) 18 document(s) 18 terms Textanalys: för utvinning av indextermer Ta bort funktionsord och andra vanligt förekommande ord (stop word removal) Morfologisk analys (på låg nivå): stemming (alt. lemmatisering) Genom indexering skapas en lista av pekare mellan termer och dokument, en representation av dokumenten i samlingen 2
3 [IR] Standardmodell [IR] Standardmodell (2) Användaren och användarens informationsbehov Omvandlas till förfrågan av användaren Analys av användarens förfrågan exempel på möjliga språkteknologiska tillägg: a) stavningskontroll b) utökning med synonymer och/eller underordnade begrepp c) precisering genom disambiguering ( bat, Apple, LaTeX ) en sökfråga i ett visst format [IR] Standardmodell [IR] Standardmodell (3) Genom matchning hämtas dokument som innehåller en given sökfråga från indexet, via pekaren mellan term och dokument Alla hämtade dokument rankas enligt ett visst mått på relevans Strikt definitionen: termen/termerna i sökfrågan förekommer i dokumentet i korrekt ordning Mindre strikt: termerna i sökfrågan förekommer i dokumentet, i vilken ordning som helst (bag of words) [IR] Statistiska matchningsmetoder [IR] Rankningsprinciper (1) Booleansk matchning Sökfrågor: nyckelord sammankopplade genom logiska operatorer (AND, OR, NOT) Binära beslut angående relevans The vector space model Dokument och sökfråga: vektorer i en rymd Resultat: rankad mängd dokument Probabilistic models Sökfråga: beskrivning av den ideala svarsmängden (mängden av relevanta dokument) Resultaten rankas efter hur stor sannolikheten är att de är relevanta för sökfrågan Dokument D rankas högre än dokumenten E, F N om D innehåller fler söktermer om söktermerna förekommer mer frekvent i D om D är kortare, men ändå innehåller söktermerna om söktermerna förekommer närmare varandra i D om söktermerna förekommer tidigare i D 3
4 [IR] Rankningsprinciper (2) [IR] Utvärdering (1) (Forts. Följande gäller särskilt webbsidor): om D är nyare om fler externa dokument länkar till D (t ex Google PageRank) om D läses/laddas ner oftare om Ds ägare betalar mer Täckning (recall) Andelen återfunna dokument av alla relevanta dokument i dokumentsamlingen Är systemet bra på att hitta mycket? Precision Andelen relevanta dokument av alla återfunna dokument Hur mycket skräp bli det? [IR] Utvärdering (2) [IR] Utvärdering (3) Relevans bedöms subjektivt utifrån användarens informationsbehov och preferenser korrekt ämne? uppdaterad information? från en trovärdig källa? Uppfyller systemet användaren önskemål i förhållande till hur användaren avser att använda informationen? Ca (2004: !) Googleträffar för sökfrågan information retrieval Vilken precision har resultatet av denna sökning? Hur kan man beräkna täckningen? och bryr sig användarna? Nej! de flesta användare tittar bara på topp 10! [IR] Metoder för att öka precisionen [IR] Andra IR-relaterade problem Inom IR Sökfråga Lista av dokument för kontroll av (den mänskliga) användaren (Google) Sökfråga Lista av kluster av dokument för kontroll av användaren (Clusty, Sökfråga Lista av dokument av en viss typ (+ referenser), t ex vetenskapliga artiklar publicerade av universitet, organisationer (CiteSeer) och inom andra relaterad problemområden: Inom Answer Retrieval Sökfråga Lista med svar (specifika stycken av dokument) för kontroll av användaren (SUiS) Inom Fact Retrieval Sökfråga Lista med fakta för tillägg till databas (ZoomInfo, Document categorization/filtering/routing: klassificering av dokument enligt vissa fördefinierade kriterier: Skilja e-post från spam Skicka vidare e-post till korrekt mottagare efter innehåll (offertförfrågningar, order, klagomål, produktionformation, allmänna frågor, etc ) Text mining: utvinna ny information (dvs information som inte nämns explicit) i ett textdokument Text summarization SweSum SweSum 4
5 [IR] och språkteknologi [IR] Lingvistisk information (1) IR handlar om enorma mängder lagrad text Effektiv åtkomst Kostnadseffektiv lagring Om språkteknologiska metoder ska läggas till dagens IR-system krävs robusthet och effektivitet: The key challenge is that any module must be robust and capable of handling megabytes of information without slowing down the overall system. (Tzoukermann et al., 2003) Identifiering av fraser: By adding simple collocations to the term list, retrieval increased by 10 percent (Buckley et al., 1995) Ordklasstaggning, morfologiska analys (stemming, lemmatisering) och ytparsning (NP-chunkning) kan användas för att expandera och slå samman termer bok, böcker bok information, retrieval information retrieval [IR]Lingvistisk information (2) [IR] Sammanfattning Thesaurusar och ontologier Allmänt: WordNet, Svenska OrdNät Domänspecifikt: UMLS, Common Procurement Vocabulary Utökning av termer i sökfrågor genom tillägg av t ex synonymer, hypernymer, hyponymer Semantisk disambiguering a) av sökfrågor (t ex genom dialog med användaren) b) av indextermer De flesta IR-system använder statistiska metoder för matchning och rankning av dokument enligt något mått på relevans Precision och täckning används ofta för utvärdering Morfologisk och syntaktisk information kan användas för att förbättra performansen Semantisk information kan användas för disambiguering av både sökfråga och indextermer, samt för utökning av sökfrågan MEN språkteknologiska metoder måste vara effektiva och robusta om det ska löna sig att lägga till existerande IR-system detta är orsaken till att sådana metoder är relativt ovanliga i dagsläget! [IR] Framtida utmaningar för STP:are Effektiv och robust textanalys IR-dialogsystem, där systemet kan hjälpa användaren att söka mer effektivt Avancerad textanalys Diskursanalys (segmentering, fokus/topic, koreferens) Text summarization Information Extraction 2: Informationsutvinning 5
6 [IE] Introduktion (1) [IE] Namnigenkänning (1) Information Extraction is the automatic identification of selected types of entities, relations, or events in free text (Grishman, 2003) Namnigenkänning (Named Entity Recognition) innebär: 1. identifiering: denna sträng är ett namn 2. klassificering: namnet är av typen X Vanligt förekommande klassificeringscheman skiljer mellan: personer företag/organisationer platser produkter [IE] Klassificering av namn [IE] Namnigenkänning (2) Trademark: VOLVO Brand name: Volvo (Nilsson & Malmgren, 2006) Trade Name: Volvo Car Corporation Dual-Function brand names: Product: Volvo C70 Service: Care by Volvo Regelbaserade (skrivna för hand): Reguljära uttryck capitalized-word + Corp Ford Corp Mr. capitalized-word Mr. Ford Namnlistor: Ford, Reagan; Abe, Ada; Wisconsin, New Delhi Bygga på kontextregler: t ex statistik om frekventa kollokationer hämtade ur en namnannoterad korpus [IE] Namnigenkänning (3) [IE] Event Extraction Maskininlärning ist. för handskrivna algoritmer [C]omputer algorithms that improve automatically through experience. (Mitchell, 1997) Träningsdata + testdata en modell av klassificeringsproblemet som kan omvandlas till en metod för klassificering ML kan vara övervakad eller oövervakad: övervakad kräver (hand)annoterad data (dyrt!) oövervakad arbetar med rå data och några få ledtrådar till att börja med Event: management succession Harriet Smith, vice president of Ford Co., has been appointed president of Daimler-Chrystler Co. Templates (i.e., database records) Person: Harriet Smith Position: vice president Company: Ford Co. Start/leave job: leave Person: Harriet Smith Position: president Company: Daimler- Chrystler Co Start/leave job: start 6
7 [IE] Event Extraction [IE] Event Extraction Reguljära uttryck: Ford appointed Smith as president Cap + appointed + Cap + as president Tyvärr är naturligt språk inte så reguljärt... Watson resigned as president of IBM, and Smith succeeded him Vad måste ett IE-system kunna hantera? (Grishman, 2003): Named entity recognition Company descriptors and modifiers Sentence modifiers Tense Clause structure Nominalzation Position names Conjunction Anaphoric reference Inference [IE] Event Extraction: Exempel [IE] Sammanfattning ORG PERS NP=ORG NP=PERS NP=president NP=ORG VG=appoint NP=PERS NP=president EVENT: PERSON: Smith POSITION: president COMPANY: Ford START/LEAVE JOB: start Informationsutvinning Relevanta stycken information extraheras ur texter, t ex namn på personer, eller komplexa relationer som beskriver företagssammanslagningar eller andra händelser. Resultatet lagras i en databas för vidare åtkomst. IE är inte möjligt utan avancerad språkteknologi! IE kräver (precis som IR) effektiva och robusta metoder för att bli kostanadseffektivt! [IR & IE] Sammanfattning Vad behöver man kunna för att jobba med IR & IE? Kunskaper i statistik, mängdlära (matematisk lingvistik) och programmering Kunskaper i lingvistik! Från morfologi till semantik till analys av relationer på diskursnivå Intresse för användarfrågor: Vem är användaren? Vad vill användaren ha? Litteratur i urval Baeza-Yates & Ribiero-Neto (1999) Modern Information Retrieval. Addison Wesley. Grishman (2003) Information Extraction. In: The Oxford Handbook of Computational Linguistics, ed. Ruslan Mitkov. Oxford University Press. Karlgren (2000): Information Retrieval: Statistics and Linguistics. SICS. Tzoukermann et al. (2003) Information Retrieval. In: OHCL. 7
Introduktion till språkteknologi
Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.
Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer
Språkteknologi vt09 Diskursmodellering Diskursmodellering koherensrelationer anaforisk referens Informationsutvinning Mallar Delproblem Namnigenkänning Referensresolution Mallifyllning / Relationsigenkänning
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering
Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)
Söka, värdera, referera
KTH ROYAL INSTITUTE OF TECHNOLOGY Söka, värdera, referera Ika Jorum, jorum@kth.se Definiera Vad behöver jag veta? Kommunicera Citera och argumentera korrekt Hitta Var och hur kan jag hitta information?
TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Automatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:82 Automatisk query expansion En komparativ studie av olika strategier för termklustring
Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson
Linköpings Universitet Artificiell Intelligens II 729G11 HT 2011 QA- system Anders Janson 861128-6918 andja338@student.liu.se Sammanfattning Inom denna uppsats tar jag upp Question Answering system, som
Dokumentrekommendationssystem och intranät
Dokumentrekommendationssystem och intranät Anders Gabrielsson anders@stp.ling.uu.se Examensarbete 20p Språkteknologiprogrammet Institutionen för lingvistik Uppsala universitet Handledare: Lars Borin och
Word sense disambiguation med Svenskt OrdNät
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN 1404-0891 Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON
TDDD02 Föreläsning 5 HT-2013
TDDD02 Föreläsning 5 HT-2013 Informationsutvinning Lars Ahrenberg Litteratur: H. Cunningham: Information Extraction, Automatic Översikt Informationsutvinning (IE) Definition och jämförelser Något om semantik
Partiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.
Sökplan TDDD39 Perspektiv på informationsteknologi Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi. Anvisningar Sökplanen påbörjas
b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)
LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet FÖRSLAG TILL PROGRAMNÄMND INFÖR ÅR NÄMND/NÄMNDER: Förslagsställare (Namn, funktion, Inst/Enhet) FÖRSLAGET GÄLLER: a) EXISTERANDE KURS (Ange kurskod
SÖKFRASANALYS PÅ GULA SIDORNA SANNA ÅSBERG 2006-04-27 LIU-KOGVET-D--06/05--SE
SÖKFRASANALYS PÅ GULA SIDORNA SANNA ÅSBERG 2006-04-27 LIU-KOGVET-D--06/05--SE SÖKFRASANALYS PÅ GULA SIDORNA MAGISTERUPPSATS I KOGNITIONSVETENSKAP SANNA ÅSBERG 2006-04-27 Institutionen för Datavetenskap,
Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East
Digital inkludering i det uppkopplade samhället för grupper med speciella behov Arne Jönsson Linköpings universitet och RISE SICS East Inkludering av alla medborgare i det digitala samhället Utlandsfödda
TDDD02 Föreläsning 6 HT-2013
TDDD02 Föreläsning 6 HT-2013 QA: Frågebesvarande system Lars Ahrenberg Litteratur: Brill m.fl. An Analysis of the AskMSR QA system Översikt Definition och exempel Utvärdering Standardkomponenter i QA-system
TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen
INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket
INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1 Medicinska biblioteket www.ub.umu.se IDAG SKA VI TITTA PÅ: Förberedelser för att söka vetenskaplig artikel: o Formulera en sökfråga o Välja ut bra sökord
Teoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Informatik C, VT 2014 Informationssökning och referenshantering. Therese Nilsson therese.nilsson@ub.umu.se 0660-292519
Informatik C, VT 2014 Informationssökning och referenshantering therese.nilsson@ub.umu.se 0660-292519 Umeå UB Datorer och nät, utskrifter, kopiering Studieplatser Böcker, avhandlingar, uppslagsverk E-resurser
Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:76 ISSN 1404-0891 Queryexpansion med böjningsvarianter och uppbrytning av sammansättningar
Sök artiklar i databaser för Vård- och hälsovetenskap
Sök artiklar i databaser för Vård- och hälsovetenskap Bibliografiska databaser eller referensdatabaser ger hänvisningar (referenser) till artiklar och/eller rapporter och böcker. Ibland innehåller referensen
Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se
Tänk kreativt! Informationssökning Ha ett kritiskt förhållningssätt! Informationssökning steg för steg Innan du börjar behöver du formulera en fråga. Vad vill du hitta information om? Att utgå från: -
Informationssökning Liberal Arts LIB40 V17
Informationssökning Liberal Arts LIB40 V17 GÖTEBORGS UNIVERSITETSBIBLIOTEK HUMANISTISKA BIBLIOTEKET Vetenskapliga informationskällor Välja sökord, ämnesord Sökteknik (trunkering, booleska operatorer )
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek
Informationssökning - att söka och finna vetenskapliga artiklar! Mikael.Rosell@liu.se 013-282248 Linköpings Universitetsbibliotek 2 FEM saker ni SKA ta med er härifrån! Välja ut och använda relevanta databaser
1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)
UMEÅ UNIVERSITY Department of Mathematics and Mathematical Statistics Pre-exam in mathematics Linear algebra 2012-02-07 1. Compute the following matrix: (2 p 3 1 2 3 2 2 7 ( 4 3 5 2 2. Compute the determinant
So ka artiklar och annan litteratur
1 So ka artiklar och annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur vare sig du letar efter böcker eller artiklar. Sökrutan är nästan det första du lägger märke till. Bakom
Sri Lanka Association for Artificial Intelligence
Sri Lanka Association for Artificial Intelligence First Sinhala Chatbot in action Budditha Hettige Department of Statistics and Computer Science, Faculty of Applied Science, University of Sri Jayewardenepura,
MÖTESPLATS INFÖR FRAMTIDEN. Borås 8-9 oktober 2003
MÖTESPLATS INFÖR FRAMTIDEN Borås 8-9 oktober 2003 Monica Lassi, Institutionen biblioteks- och informationsvetenskap/bibliotekshögskolan, Högskolan i Borås Informationssökning i naturligt språk svenska
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter
Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,
Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi
Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med
Språkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Introduction to the Semantic Web. Eva Blomqvist
Introduction to the Semantic Web Eva Blomqvist eva.blomqvist@liu.se Outline The original vision Meaning of data Current applications Revisiting the vision and looking ahead Scientific American, May 2001:
Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande studie med felanalys
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2003:124 Ämnessökningar med kontrollerad vokabulär och naturligt språk: en jämförande
Structured Query Language (SQL)
Structured Query Language (SQL) Christer Stuxberg christer.stuxberg@im.uu.se Institutionen för Informatik och Media Översikt Introduktion Enkla frågor (queries) Hämta en specifik kolumn Sök Sammanfattning
Grundläggande Textanalys VT 2014. Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se
Grundläggande Textanalys VT 2014 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
- ett statistiskt fråga-svarsystem
- ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...
Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science
KANDIDATUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2012:32 Akademiska söktjänster - En jämförande studie av Google Scholar,
Innehåll. Informationssökning språkteknologiska hjälpmedel
Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,
Språk, datorer och textbehandling
Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer
SVENSK STANDARD SS-EN ISO 19108:2005/AC:2015
SVENSK STANDARD SS-EN ISO 19108:2005/AC:2015 Fastställd/Approved: 2015-07-23 Publicerad/Published: 2016-05-24 Utgåva/Edition: 1 Språk/Language: engelska/english ICS: 35.240.70 Geografisk information Modell
Klustring av svenska tidningsartiklar
Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/ Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier
En komparativ litteraturstudie av olika termkällor för query expansion
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:80 ISSN 1404-0891 En komparativ litteraturstudie av olika termkällor för query
Optimering av webbsidor
1ME323 Webbteknik 3 Lektion 7 Optimering av webbsidor Rune Körnefors Medieteknik 1 2019 Rune Körnefors rune.kornefors@lnu.se Agenda Optimering SEO (Search Engine Optimization) Sökmotor: index, sökrobot
Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?
Utvärdering av nyhetsbevakningssystem Eriks Sneiders eriks@dsv.su.se 24-1-12 Nyhetsbevakning och Information Retrieval Applikationsnivå Nyhetsbevakning att hitta intressanta artiklar i flödet Tekniknivå
Söka artiklar i CSA-databaser Handledning
På Malmö högskola har vi flera databaser via CSA, bl.a. Sociological Abstracts, Social Services Abstracts, ERIC och PsychInfo, det betyder att gränssnittet för dessa databaser ser likadana ut. Om du har
Passage Retrieval En studie av index
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:36 ISSN 1404-0891 Passage Retrieval En studie av index LARS BJÖRKLUND LINDA BÄCKMAN
hjälp av SAS Text Miner
Enterprise Intelligence Customer Intelligence Supplier Intelligence Organizational Intelligence Intelligence Architecture Identifiera stora gömda värden i textbaserad information med hjälp av SAS Text
TDDD02 Föreläsning 7 HT-2013
TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Joakim Nivre och Jörg Tiedemann
Strukturerade Ostrukturerade Joakim Nivre och Jörg Tiedemann 1 / 40 Strukturerade Ostrukturerade Vad är det vi söker? 2 / 40 Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi
TFYY51 Informationssökning
TFYY51 Informationssökning Göran Lindgren Med inspiration och lån av ppt-bilder från Joakim Westerlund, Linköpings universitetsbibliotek, samt North Carolina State University Libraries, www.lib.ncsu.edu
Snabbguide till Cinahl
Christel Olsson, BLR 2008-09-26 Snabbguide till Cinahl Vad är Cinahl? Cinahl Cumulative Index to Nursing and Allied Health Literature är en databas som innehåller omvårdnad, biomedicin, alternativ medicin
SVENSK STANDARD SS
Provläsningsexemplar / Preview SVENSK STANDARD Handläggande organ Fastställd Utgåva Sida Allmänna Standardiseringsgruppen, STG 1998-01-30 1 1 (13) SIS FASTSTÄLLER OCH UTGER SVENSK STANDARD SAMT SÄLJER
Målet är att ge maskiner förmågan att plocka ut information ur
Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet:
Information Retrieval. Information Retrieval (IR)
Information Retrieval Johan Boye, KTH Information Retrieval (IR) Att hitta relevantinformation i en stor mängd texter (och/eller bilder, audio, video, programkod, biomedicinsk data, ) Användaren ger en
SPRÅKTEKNOLOGIPROGRAMMET
SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Institutionen för lingvistik och filologi Augusti 2013 (Mats Dahllöf) 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system
Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:37 ISSN 1404-0891 Hur effektiva är de egentligen? en evaluering av tre webbaserade
Sammanfattning av informationssökning VT19
729G19 Tillämpad kognitionsvetenskap Sammanfattning av informationssökning VT19 För godkänt projekt på kursen 729G19 skall man haft ett handledningstillfälle i informationssökning och sammanfattning av
Sö ka artiklar öch annan litteratur
1 Sö ka artiklar öch annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur. Sökrutan är nästan det första du lägger märke till. Bakom denna sökruta döljer sig en databrunn och
Informationssökning. Jörg Tiedemann. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data
Strukturerade Ostrukturerade Jörg Tiedemann 1 / 44 Strukturerade Ostrukturerade Vad är det vi söker? 2 / 44 Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? 2 / 44
Svensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Patientutbildning om diabetes En systematisk litteraturstudie
Institutionen Hälsa och samhälle Sjuksköterskeprogrammet 120 p Vårdvetenskap C 51-60 p Ht 2005 Patientutbildning om diabetes En systematisk litteraturstudie Författare: Jenny Berglund Laila Janérs Handledare:
Random Indexing för vektorbaserad semantisk analys
Random Indexing för vektorbaserad semantisk analys ScandSum 23 Vektorbaserad semantisk analys Ord (-betydelser) som vektorer i en mångdimensionell rymd y gitarr luta ScandSum 23 x tuba Vektorbaserad semantisk
Query expansion med semantiskt relaterade termer
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:84 Query expansion med semantiskt relaterade termer Sofia Höglund Sofia Höglund
SPRÅKTEKNOLOGIPROGRAMMET
SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Mats Dahllöf Institutionen för lingvistik och filologi Augusti 2012 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system
Att designa en vetenskaplig studie
Att designa en vetenskaplig studie B-uppsats i hållbar utveckling Jakob Grandin våren 2015 @ CEMUS www.cemusstudent.se Vetenskap (lågtyska wetenskap, egentligen kännedom, kunskap ), organiserad kunskap;
CogSum. Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte
CogSum Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte Mimi Axelsson, Erica Bergenholm, Bertil Carlsson, Gro Dahlbom,
Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord
Språkteknologiska stöd Språkteknologiska stöd Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd
Mål med lektionen! Repetera och befästa kunskaperna.
Entity Framework Mål med lektionen! Repetera och befästa kunskaperna. Vad lektionen omfattar Repetera och gå igenom kursen lite snabbt. Vilka problem vill vi lösa? Vi arbetar med Webbapplikationer Vi kommer
FÖRBÄTTRA DIN PREDIKTIVA MODELLERING MED MACHINE LEARNING I SAS ENTERPRISE MINER OSKAR ERIKSSON - ANALYSKONSULT
FÖRBÄTTRA DIN PREDIKTIVA MODELLERING MED MACHINE LEARNING I SAS ENTERPRISE MINER OSKAR ERIKSSON - ANALYSKONSULT VEM ÄR JAG? VAD SKA VI GÖRA? Pimafolket Vilka då? Diabetes Typ 2 Regressionsanalys Machine
Ett energisystem med större andel vindkraft. Johnny Thomsen, Senior Vice President Product Management Vestas Wind Systems A/S
Ett energisystem med större andel vindkraft Johnny Thomsen, Senior Vice President Product Management Vestas Wind Systems A/S October 1 Energikommissionen, 6 th 2015, Stockholm Vad är teknikläget för framtidens
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Projektförslag. Datalingvistisk projektkurs VT mars 2007
Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett
Medicinsk Informatik VT 2004
Informatik VT 2004 Introduktion till Informatik Informationsteknologi Information technology Datavetenskap Computer science Informatik Teknikgrad Systemvetenskap System analysis and design Informatics
Att söka information (med betoning på Internet)
Att söka information (med betoning på Internet) - en sökguide för distansstuderande 1. Var finns informationen? 2. Hur söker man? Sökstrategier 3. Olika informationskällor, hjälpmedel vid informationssökning
Specifikation och tidsplan för examensarbete
Specifikation och tidsplan för examensarbete Anneli Lönn 19 maj 2003 1 Deltagare Anneli Lönn ska utföra projektet hos CognIT a.s i Oslo Robert Engels, handledare CognIT a.s Till Christopher Lech, handledare
översikt 1. informationsförädling är, typ: 2. Squirrelprototypen 3. möjligheter för framtiden [5] ICALL/2
[5] ICALL/2 Datalingvistikprogrammet Datorstödd språkinlärning och språkteknologi 27/9 2005 översikt 1. informationsförädling är, typ: 2. Squirrelprototypen 3. möjligheter för framtiden 1 informationsförädling
Semantik. Semantik och språkteknologi
Semantik Semantik studiet av innebörd(mening) Går tillbaka till Platon (dialogen Kratylos) Relationen språk verklighet Betydelsen av ett ord är dess användning i språket (Wittgenstein) Semantik och språkteknologi
Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering
Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska
Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt.
Kunskapsgraf Fredrik Åkerberg j.f.akerberg@gmail.com Tommy Kvant tommy.kvant@gmail.com 1 Introduktion Målet med projektet var att undersöka huruvida DBpedia.org, kan användas för att besvara frågor på
Utrymningshissar och utrymningsplatser utifrån de utrymmandes perspektiv. kristin andrée
Utrymningshissar och utrymningsplatser utifrån de utrymmandes perspektiv kristin andrée institutionen för bygg- och miljöteknologi LundS UNIVERSITET Utrymningshissar och utrymningsplatser utifrån de utrymmandes
Google Guide: Tips för sökoptimering
Google Guide: Tips för sökoptimering Google Guide Digital publikation www.intankt.se, Intankt Författare: Adam Ahlgren Typsnitt: Calibri, 11 punkter Formgivning: Intankt Omslagsfoto: Google Stockholm,
Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I
HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I 13 NOVEMBER 2012 Idag ska vi titta på: Sökprocessen: förberedelser inför sökning, sökstrategier Databaser: innehåll, struktur Sökteknik:
http://www.youtube.com/watch?v=jpenfwiqdx8
http://www.youtube.com/watch?v=jpenfwiqdx8 1 Sökmotoroptimering SEO En introduktion för webbredaktörer 2 Agenda Var är vi på väg? Hur fungerar sökmotorer? Hur går det till när jag söker? Hur hänger det
Introduktion till biblioteket och informationssökning Språk och litteraturer
Introduktion till biblioteket och informationssökning Språk och litteraturer HT 2014 Göteborgs universitetsbibliotek Humanistiska biblioteket Böcker och tidskrifter inom humaniora Kursböcker inom de humanistiska
Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692
Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...
EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits
HUMANISTISKA FAKULTETSNÄMNDEN EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits Avancerad nivå/second Cycle 1.
729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp
729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Europeana Data Model vad, varför och hur
Europeana Data Model vad, varför och hur Fagdag om modellering hos Riksantikvaren 2014-03-07 Hannes Ebner hannes@metasolutions.se Innehåll 1. 2. 3. 4. 5. 6. 7. Bakgrund / Varför EDM? Nyckelegenskaper
Writing with context. Att skriva med sammanhang
Writing with context Att skriva med sammanhang What makes a piece of writing easy and interesting to read? Discuss in pairs and write down one word (in English or Swedish) to express your opinion http://korta.nu/sust(answer
Kursinformation och schema för Lingvistik 6 hp 729G08
LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga programmet 2012-10-29 Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2012 Lärare: Mathias Broth (281851)