Informationssökning. Jörg Tiedemann. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

Relevanta dokument
Joakim Nivre och Jörg Tiedemann

Informationssökning. Joakim Nivre. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Sammanfattning av informationssökning VT19

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Introduktion till språkteknologi

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Sök artiklar i databaser för Vård- och hälsovetenskap

Snabbguide till Cinahl

PubMed (Medline) Fritextsökning

Information Retrieval. Information Retrieval (IR)

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Peter Hellström. PH-Digital Marketing

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Att söka information (med betoning på Internet)

729G09 Språkvetenskaplig databehandling

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

Söka, värdera, referera

Svensk nationell datatjänst, SND BAS Online

Optimering av webbsidor

TDDD02 Föreläsning 6 HT-2013

Om uppsatsmallen vid GIH

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

Läget, läget, läget. Sök, sök, sök. mars 2018/Ted Durdel

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Korp. Övningar Språkbankens höstworkshop oktober 2016

Sökning med prefix i BOOK-IT PUB

Sökmotormarknadsföring

Introduction to the Semantic Web. Eva Blomqvist

V I G Å R I G E N O M...

Språkteknologi. Språkteknologi

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Internets historia Tillämpningar


Informationssökning Liberal Arts LIB40 V17

Sö ka litteratur i ERIC

Cinahl sökguide. Enkel sökning. Ämnesordsökning

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science

So ka artiklar och annan litteratur

CBI-biblioteket. Presentation för CBI:s intressentförening Eva Lundgren

Webbteknik. Innehåll. Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender. En kort introduktion

Uppdaterad / EM. The Cochrane Library

Webbplats analys cite4me.org


LADDA NER LÄSA. Beskrivning

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, Internet började med ARPANET

Sökhjälp. Sökfältet finns på samma ställe på alla sidor på webbplatsen.

ALEPH ver. 18 Sökning - övningar

Bra hemsidor, trender och Google sökmotor

Maskinöversättning 2008

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per.

Structured Query Language (SQL)

Tentamen Marco Kuhlmann

Webbprogrammering. Sahand Sadjadee

Max Wimnell. Ställ gärna frågor!

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

informationssökning - att söka och finna publikationer på universitetet!

Kort om World Wide Web (webben)

Sö ka artiklar öch annan litteratur

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Retriever Mediearkivet

Maskinöversättning möjligheter och gränser

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg

Googles sidrankning - linjär algebra värt en förmögenhet

Att söka vetenskapliga artiklar inom vård och medicin -

Socialtjänstbiblioteket

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

TFYY51 Informationssökning

Referenshantering med Zotero 1

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

KN - Seminarium. (Litteratursökning)

Bibliotekets resurser för filosofistudenter vt Catrin Andersson Umeå universitetsbibliotek

Sökmanual till MetaLib. Utbildningsmaterial framtaget av LIBRIS-avdelningen

Att ladda ner från legimus.se

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Informationssökning - att söka och finna vetenskapliga publikationer Linköpings Universitetsbibliotek

Introduk+on +ll programmering i JavaScript

Hur man hjälper besökare hitta på en webbplats

729G09 Språkvetenskaplig databehandling

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

BLDSC British Library Document Supply Centre - det största utlåningsbiblioteket i Europa

Statistisk Maskinöversättning eller:

SVENSK STANDARD SS

Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder

TNMK30 - Elektronisk publicering

Biblioteken, Futurum 2017

Undersök Google. Sida 1 av 9. En digital lektion från

Källuppgifter i fysik FAFA55

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

Lathund till PsycINFO (OVID)

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Transkript:

Strukturerade Ostrukturerade Jörg Tiedemann 1 / 44

Strukturerade Ostrukturerade Vad är det vi söker? 2 / 44

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? 2 / 44

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? Hur söker vi? (Hur vill vi söka?) 2 / 44

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? Hur söker vi? (Hur vill vi söka?) Hur vill vi få resultaten? 2 / 44

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? Hur söker vi? (Hur vill vi söka?) Hur vill vi få resultaten? Vad är viktigt med söktjänster? 2 / 44

är del av vårt liv! Strukturerade Ostrukturerade 3 / 44

Terminology Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). Strukturerade Ostrukturerade 4 / 44

Terminology Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). Information Extraction (IE) is extracting structured information from unstructured machine-readable documents by means of natural language processing (NLP). Strukturerade Ostrukturerade 4 / 44

Terminology Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). Information Extraction (IE) is extracting structured information from unstructured machine-readable documents by means of natural language processing (NLP). Strukturerade Ostrukturerade Question Answering (QA) is answering a question posed in natural language and has to deal with a wide range of question types including: fact, list, definition, how, why, hypothetical, semantically constrained, and cross-lingual questions. 4 / 44

Olika Typer av Information Strukturerade Olika dynamiska informationskällor: webben, baser, sociala medier, e-mail... Söka i en bibliotekskatalog (t.ex. med DISA) Söka relevanta e-mails, information om kompisar, aktuell musik, nyhetsflöden Söka billiga resor, busförbindelser, recensioner, programmeringshjälp Lingvistisk sökning (lingvistiska mönster i textkorpusar, speciella fenomen, historisk språkutveckling) Ostrukturerade 5 / 44

Historisk Forskning, Trender Förekomster av TV, Library, Books, Newspaper Strukturerade Ostrukturerade https://books.google.com/ngrams/ http://googlebooks.byu.edu 6 / 44

Språklig Utveckling och Förändringar in school eller at school? Strukturerade Ostrukturerade 7 / 44

Språklig Utveckling och Förändringar in school eller at school? Strukturerade Ostrukturerade 7 / 44

Talsökning Strukturerade Man kan också vilja söka efter tal, t.ex. för att hitta ett uttalande i en intervju som bara finns som ljudinspelning Fri sökning i ljudinspelningar är ännu inte fullt utvecklad Vi kan dock redan avgöra vilket språk ett samtal förs på upptäcka när ett nytt ämne introduceras i ett samtal texta vad som sägs (med varierande kvalitet) Vi kommer att fokusera på textsökning Ostrukturerade 8 / 44

Typer av Strukturerade Ostrukturerade 9 / 44

Typer av 1. Strukturerade : kodade och sökbara i kategorier: författare, titel, ämne osv. Fördel: möjliggör specifika och exakta sökningar Nackdel: någon måste strukturera Strukturerade Ostrukturerade 9 / 44

Typer av 1. Strukturerade : kodade och sökbara i kategorier: författare, titel, ämne osv. Fördel: möjliggör specifika och exakta sökningar Nackdel: någon måste strukturera 2. Ostrukturerade : mycket större tillgänglighet (framför allt på internet) Nyckelordssökning räcker långt Strukturerade Ostrukturerade 9 / 44

Typer av 1. Strukturerade : kodade och sökbara i kategorier: författare, titel, ämne osv. Fördel: möjliggör specifika och exakta sökningar Nackdel: någon måste strukturera 2. Ostrukturerade : mycket större tillgänglighet (framför allt på internet) Nyckelordssökning räcker långt 3. : viss kategorisering men ej fullständig struktur Struktur och format ofta inkonsekventa även för samma typ av dokument (t.ex. bloggar och webrecensioner) Strukturerade Ostrukturerade 9 / 44

Strukturerade Söka i bibliotekskataloger Strukturerade Ostrukturerade För att hitta artiklar, böcker m.m. tillhandahåller bibliotek i allmänhet: en bas med information om dess innehav ett basgränssnitt för interaktion med basen t.ex. DISA, LIBRIS, WorldCat Användare söker efter exakta strängar som förekommer i fälten för författare, titel, osv. 10 / 44

Sökning i LIBRIS Strukturerade Grundläggande sökning: Nyckelord som matchar godtyckligt fält Kan kombineras med operatorer Utökad sökning: Fritext Titel/ord i titel Författare/upphovsman Ämne. Ostrukturerade 11 / 44

Specialtecken och operatorer Förutom exakta strängar kan man även använda specialtecken för att förkorta flera söksträngar * för att trunkera tecken i slutet av ett ord? för att ersätta exakt ett tecken varsomhelst i ett ord Strukturerade Ostrukturerade 12 / 44

Specialtecken och operatorer Förutom exakta strängar kan man även använda specialtecken för att förkorta flera söksträngar * för att trunkera tecken i slutet av ett ord? för att ersätta exakt ett tecken varsomhelst i ett ord booleska operatorer för att kombinera två söksträngar x AND y x OR y x AND NOT y. Strukturerade Ostrukturerade 12 / 44

Ostrukturerade Ingen explicit kategorisering av de dokument som söks Liknar nyckelordssökning i strukturerade Mer storskaligt, t.ex. biljoner av webbsidor Andra typer av operatorer och sätt att förfina sökningar Strukturerade Ostrukturerade Med ostrukturerad menas: att strukturen inte är fördefinierad att strukturen inte är likformig och standardiserad att sökfrågor (därför) inte kan förutsätta en viss struktur 13 / 44

Informationsbehov Sökning förutsätter ett informationsbehov Informationsbehov översätts till en sökfråga Detta är en inexakt process (1) a. Informationsbehov: en eller flera ryska översättningar av det engelska ordet table b. Möjlig sökfråga: russian translation table Strukturerade Ostrukturerade Informationsbehovet är entydigt, sökfrågan flertydig Möjligt informationsbehov: tabell över ryska översättningar (utan ordet table) 14 / 44

Evaluating Search Results Strukturerade Många välkända mått kommer från informationssökning: Precision = Ostrukturerade Recall = Det skulle finnas mycket mer att säga om utvärdering... 15 / 44

En användare vill hitta något på webben, dvs. i filer som kan nås via hypertext transfer protocol (http) på internet går till en sökmotor, dvs. ett program som matchar dokument mot sökfrågor skriver in en sökfråga baserat på ett informationsbehov får en lista på webbsidor som kan vara relevant informationsbehovet utvärderar resultat: väljer en webbsida med den sökta informationen eller omformulerar sökfrågan Strukturerade Ostrukturerade 16 / 44

Webben Strukturerade Webbsidor är i allmänhet mindre strukturerade än poster i biblioteksbaser (med titel, författare osv.) Man söker efter ord var som helst i ett dokument Man kan inkludera meta på en webbsida, dvs. strukturerad information som inte visas på själva sidan T.ex. språk, teckenkodning, författare och nyckelord <META name= keywords lang= en-us content= vacation,greece > Ostrukturerade 17 / 44

Sökmotorer Strukturerade Sökmotorer (t.ex. Google) sparar en kopia av (nästan) alla webbsidor skapar ett index för att snabbt kunna nå sidor rangordnar sidor för att kunna rangordna sökresultat Sökmotorer kan skilja sig åt avseende: Behandling av ord: stamning: bird kontra birds stora och små bokstäver: trip kontra Trip Sökalternativ: operatorer eller speciella gränssnitt Hur sökresultat rangordnas och eventuellt klustras Ostrukturerade 18 / 44

När sökmotorer kartlägger webben, bygger de en term-dokument-matris Affair at Secret Sherlock Styles Adversary Holmes Poirot 1 0 0 Sherlock 0 0 1 adventure 1 1 1 exceedingly 1 0 1 strychnine 1 0 0 subsided 1 0 1 Strukturerade Ostrukturerade 1 betyder att ordet förekommer i dokumentet 0 betyder att det inte förekommer 19 / 44

Inverterad indexering Matrisuppbyggnaden görs i förväg, innan sökmotorn tar emot sökfrågor För att snabbare kunna hitta dokument skapas ett inverterat index Poirot 1, 4, 13, 15, 45,... Sherlock 3, 111,... adventure 1, 2, 3, 4, 5, 9, 15,... exceedingly 1, 3, 11, 25,... strychnine 1, 15, 60,... subsided 1, 3, 12, 13, 25,... Strukturerade Ostrukturerade Varje term pekar på en lista av dokument där den förekommer 20 / 44

Användning av Inverterade Indexer Query = Brutus AND Calpurnia Brutus 1 2 4 11 31 45 173 174 Calpurnia 2 31 54 101 Strukturerade Ostrukturerade 21 / 44

Användning av Inverterade Indexer Query = Brutus AND Calpurnia Brutus 1 2 4 11 31 45 173 174 Calpurnia 2 31 54 101 Intersection 2 31 Strukturerade Ostrukturerade 21 / 44

Användning av Inverterade Indexer Query = Brutus AND Calpurnia Brutus 1 2 4 11 31 45 173 174 Calpurnia 2 31 54 101 Intersection 2 31 Strukturerade Ostrukturerade Linjärt med längden av posting-listorna! Flera möjligheter för optimering 21 / 44

Användning av Inverterade Indexer Query = Brutus AND Calpurnia Brutus 1 2 4 11 31 45 173 174 Calpurnia 2 31 54 101 Intersection 2 31 Strukturerade Ostrukturerade Linjärt med längden av posting-listorna! Flera möjligheter för optimering Uppgift: Brutus or Calpurnia Brutus and not Calpurnia 21 / 44

(Slides from Dan Russell, Google)

Boolean retrieval is not enough! Relevance ranking is important!

Strukturerade I bästa fall returneras de webbsidor som matchar en sökfråga som en lista ordnad efter fallande relevans Hur kan en sökmotor som inte förstår språk avgöra en sidas relevans? Ostrukturerade 24 / 44

Strukturerade I bästa fall returneras de webbsidor som matchar en sökfråga som en lista ordnad efter fallande relevans Hur kan en sökmotor som inte förstår språk avgöra en sidas relevans? Rangordningen bestäms av hundratals faktorer, varav några av de viktigaste är: Viktning av ord efter informationsvärde och position Språkteknologisk analys av sökfråga och sidor Hur ofta ett sökresultat klickas på av användare Antal länkar till och från sidan Ostrukturerade 24 / 44

Bag of Words Model Anthony Julius The Hamlet Othello Macbeth... and Caesar Tempest Cleopatra Anthony 157 73 0 0 0 1 Brutus 4 157 0 2 0 0 Caesar 232 227 0 2 1 0 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 8 5 8 worser 2 0 1 1 1 5... Strukturerade Ostrukturerade Each document is represented by a count vector N V (term frequency). 25 / 44

TF-IDF Viktning tf (term frequency) = relevans av dokumentet idf (inverse document frequency): sällsynta termer får högre vikt Strukturerade Anthony Julius The Hamlet Othello Macbeth... and Caesar Tempest Cleopatra Anthony 5.25 3.18 0.0 0.0 0.0 0.35 Brutus 1.21 6.10 0.0 1.0 0.0 0.0 Caesar 8.59 2.54 0.0 1.51 0.25 0.0 Calpurnia 0.0 1.54 0.0 0.0 0.0 0.0 Cleopatra 2.85 0.0 0.0 0.0 0.0 0.0 mercy 1.51 0.0 1.90 0.12 5.25 0.88 worser 1.37 0.0 0.11 4.15 0.25 1.95... Ostrukturerade 26 / 44

Vektorrymdsmodellen Strukturerade Ostrukturerade Matchning och rangordning = närhet av dokumentvektor till frågevektorn 27 / 44

Cosinusmåttet Strukturerade Ostrukturerade 28 / 44

Språkteknologisk analys Strukturerade Ordklasstaggning Är round substantiv eller adjektiv? Är fly substantiv eller verb? Syntaktisk parsning Oracle acquired Sun vem köpte vem? Ostrukturerade Entitetsextraktion Är breaking bad en TV-serie? Är Sandy en orkan? 29 / 44

Webblänkar Exempel Sidorna X, Y, och Z länkar alla till sidan A A X Strukturerade Ostrukturerade Z Y Är dessa länkar bättre eller sämre än länkarna till sidan B? B X V W Det beror på hur populära (eller auktoritativa) länkarna är 30 / 44

Webblänkning Mäta popularitet För att jämföra populariteten hos A och B, kan vi låta de länkande sidorna rösta Varje länkande sida får antal röster i proportion till dess egen popularitet X lägger 15 röster på A, Y lägger 10 och Z lägger 20: Strukturerade Ostrukturerade A X : 15 Z : 20 Y : 10 Men nu har A 45 röster. Är inte det för många? 31 / 44

Webblänkning Fördelning av utgående länkar Den lösning Google använder (som kallas PageRank) är att sprida ut varje sidas röster på alla sidor som den röstar på A 5 X : 15 5 B 5 Strukturerade Ostrukturerade C Antag att A efter att vi spridit ut rösterna får 12 röster Denna poängsumma betyder ingenting i sig själv Men om vi jämför med sidan B, som får 10 röster, kan vi säga att A är mer populär/auktoritativ 32 / 44

Webblänkning Rangordning med webblänkar Strukturerade Sammanfattningsvis finns det två faktorer att ta hänsyn till: Inkommande länkar Utgående länkar Ostrukturerade Google använder (ungefär) följande beräkning, där R(X) står för X:s rang och C(X) står för antalet utgående länkar från X R(A) = R(X) C(X) + R(Y) C(Y) + R(Z) C(Z) 33 / 44

Webblänkning Varför? Strukturerade Ostrukturerade 1. Vi summerar A:s inkommande länkar för att se hur populär A är bland andra sidor 2. Vi dividerar med antalet utgående länkar från X, Y och Z för att fördela deras röster över alla sidor de länkar till Om vi inte dividerade, skulle A få en enorm poängsumma (och sidor den länkar till en ännu större) På så sätt kan vi mäta hur populär en sida är, vilket är en av de faktorer som används för att rangordna sökresultat 34 / 44

innehåller någon kategorisering men är inte helt strukturerade Exempel: Wikipedia, Internet Movie Database Eftersom användare lägger in mycket av innehållet, kan struktur och kategorier variera Jämför (IMDB): Greta Garbo (1905 1990) Greta Lovisa Gustafsson was born in Stockholm, Sweden... Born: Greta Lovisa Gustafsson, September 18, 1905 in Stockholm, Stockholms län, Sweden Died: April 15, 1990 (age 84) in New York City, New York, USA Ingrid Bergman (I) (1915 1982) Ingrid Bergman was born in Stockholm, Sweden... Born: August 29, 1915 in Stockholm, Sweden Died: August 29, 1982 (age 67) in Chelsea, London, England, UK Strukturerade Ostrukturerade 35 / 44

Reguljära uttryck Varför? Strukturerade Ostrukturerade Om vi vill kunna beskriva mer komplexa textmönster, räcker det inte alltid med booleska operatorer Antag t.ex. att vi i en stor textsamling vill hitta alla postnummer som börjar med 112 alla epost-adresser till Uppsala universitet I sådana sammanhang är reguljära uttryck användbara. 36 / 44

Reguljära uttryck Vad är det? Ett reguljärt uttryck är en kompakt beskrivning av ett formellt språk, dvs. en mängd strängar över ett alfabet Reguljära uttryck kan användas för att söka efter förekomster av dessa strängar De kallas reguljära uttryck därför att de endast kan beskriva s.k. reguljära språk Detta betyder att de inte kan användas för alla typer av strängar, t.ex. strängar med matchande parenteser (lika många höger- som vänsterparenteser) Reguljära uttryck innehåller ingen språkkunskap men kan användas för att söka efter strängar i naturligt språk Strukturerade Ostrukturerade 37 / 44

Reguljära uttryck Populära verktyg Strukturerade Ostrukturerade Många unix/linux-verktyg (grep, sed,... ), textredigerare (emacs, vi,... ) och programspråk (Python, Java,... ) inbegriper reguljära uttryck Implementationerna är tillräckligt effektiva för att söka igenom stora textfiler men inte hela webben De olika verktygen skiljer sig åt med avseende på syntax och vilka typer av reguljära uttryck de stöder 38 / 44

Korpusar En korpus är en samling text (eller andra språk) Lingvister och språkteknologer har skapat digitala korpusar bestående av tidningstext, skönlitteratur och andra typer av text Storleken varierar från några tusen ord till flera miljarder Exempel British National Corpus (BNC) en korpus på ca 100 miljoner ord bestående av många olika typer av skriven och talad brittisk engelska European Parliament Proceedings Parallel Corpus 1996 2003 (Europarl) är en flerspråkig parallell korpus med protokoll från EU-parlamentet Stockholm-Umeå Corpus (SUC) är en korpus på ca 1 miljon ord med skriven svenska i olika genrer Strukturerade Ostrukturerade 39 / 44

Korpussökning Många korpusar har online-verktyg för sökning Dessa sökverktyg stöder ofta reguljära uttryck för avancerad sökning Dessutom kan man ofta söka på annoterade språkliga kategorier, t.ex. ordklass SUC och andra svenska korpusar finns på Språkbanken Hemsida: http://spraakbanken.gu.se/ Sökverktyg: Korp Strukturerade Ostrukturerade Parallella korpusar finns i OPUS Hemsida: http://opus.lingfil.uu.se/ Sökverktyg: Corpus Query Workbench 40 / 44

Kollokationer Vad är skillnaden mellan strong och powerful? Strukturerade Ostrukturerade 41 / 44

Kollokationer Vad är skillnaden mellan strong och powerful? Strukturerade Ostrukturerade 41 / 44

igure 1: A syntactic ngram appearing 112 times in the xtended-biarcs Syntaktisk Information set, which include structures containing three ontent words (see Section 4). Grayed items are non-content Mäta likhet mellan 2 ord med hjälp av dess syntaktiska ords and are not included in the word count. The dashed kontext uxiliary have is a functional marker (see Section 3), apearing only in the extended-* Likhet mellan Rock och Jazz sets. Likhet mellan Rock och Stone Strukturerade Ostrukturerade fine-g noun A notat et al. tive q in wh are li speec pende an ea and fl resea grain analy 42 / 44

Sammanfattning Strukturerade behövs i vardag och professionellt Text, tal, multi-media Ostrukturerade, semi-strukturerade, strukturerade Sökning måste gå blixtsnabbt Relevansrangordning är viktigt Essentiellt för empirisk forskning Ostrukturerade 43 / 44

skurs på våren Kursbok: Strukturerade Ostrukturerade Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 Finns gratis on-line: http://www-csli.stanford.edu/ hinrich/information-retrieval-book.html 44 / 44