Joakim Nivre och Jörg Tiedemann

Relevanta dokument
Informationssökning. Jörg Tiedemann. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

Informationssökning. Joakim Nivre. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Sammanfattning av informationssökning VT19

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Sök artiklar i databaser för Vård- och hälsovetenskap

Introduktion till språkteknologi

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Snabbguide till Cinahl

PubMed (Medline) Fritextsökning

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

Att söka information (med betoning på Internet)

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

Söka, värdera, referera

Svensk nationell datatjänst, SND BAS Online

Peter Hellström. PH-Digital Marketing

Om uppsatsmallen vid GIH

729G09 Språkvetenskaplig databehandling

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Information Retrieval. Information Retrieval (IR)

TDDD02 Föreläsning 6 HT-2013

Korp. Övningar Språkbankens höstworkshop oktober 2016

Språkteknologi. Språkteknologi

V I G Å R I G E N O M...

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

Internets historia Tillämpningar

Läget, läget, läget. Sök, sök, sök. mars 2018/Ted Durdel

Introduction to the Semantic Web. Eva Blomqvist

Sökning med prefix i BOOK-IT PUB

Optimering av webbsidor

Sökmotormarknadsföring

Introduk+on +ll programmering i JavaScript


CBI-biblioteket. Presentation för CBI:s intressentförening Eva Lundgren

So ka artiklar och annan litteratur

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

Webbteknik. Innehåll. Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender. En kort introduktion

Informationssökning Liberal Arts LIB40 V17

LADDA NER LÄSA. Beskrivning

Sö ka litteratur i ERIC

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, Internet började med ARPANET

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

ALEPH ver. 18 Sökning - övningar

Sökhjälp. Sökfältet finns på samma ställe på alla sidor på webbplatsen.

Tentamen Marco Kuhlmann

Grundläggande textanalys. Joakim Nivre

Structured Query Language (SQL)

Webbprogrammering. Sahand Sadjadee

informationssökning - att söka och finna publikationer på universitetet!

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Sö ka artiklar öch annan litteratur

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

Kort om World Wide Web (webben)

Retriever Mediearkivet

729G09 Språkvetenskaplig databehandling

Akademiska söktjänster - En jämförande studie av Google Scholar, MEDLINE och Web of Science

Maskinöversättning möjligheter och gränser

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Webbplats analys cite4me.org

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg

Uppdaterad / EM. The Cochrane Library

TFYY51 Informationssökning

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

Cinahl sökguide. Enkel sökning. Ämnesordsökning


Maskinöversättning 2008

Referenshantering med Zotero 1

KN - Seminarium. (Litteratursökning)

Avbildningar och hashtabeller. Koffman & Wolfgang kapitel 7, mestadels avsnitt 2 4

Att ladda ner från legimus.se

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Föreläsningsanteckningar, Introduktion till datavetenskap HT S4 Datastrukturer. Tobias Wrigstad

Statistisk Maskinöversättning eller:

BLDSC British Library Document Supply Centre - det största utlåningsbiblioteket i Europa

SVENSK STANDARD SS

Undersök Google. Sida 1 av 9. En digital lektion från

Googles sidrankning - linjär algebra värt en förmögenhet

Isometries of the plane

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

TNMK30 - Elektronisk publicering

Att söka vetenskapliga artiklar inom vård och medicin -

Källuppgifter i fysik FAFA55

Question answering system

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

JavaScript. Innehåll. Historia. Document object model DHTML. Varför Javascript?

Bra hemsidor, trender och Google sökmotor

Sökmanual till MetaLib. Utbildningsmaterial framtaget av LIBRIS-avdelningen

Socialtjänstbiblioteket

Bibliotekets resurser för filosofistudenter vt Catrin Andersson Umeå universitetsbibliotek

Hur man hjälper besökare hitta på en webbplats

Publikationstyp Kapitel i bok, del av antologi

Informationssökning - att söka och finna vetenskapliga publikationer Linköpings Universitetsbibliotek

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Transkript:

Strukturerade Ostrukturerade Joakim Nivre och Jörg Tiedemann 1 / 40

Strukturerade Ostrukturerade Vad är det vi söker? 2 / 40

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? 2 / 40

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? Hur söker vi? (Hur vill vi söka?) 2 / 40

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? Hur söker vi? (Hur vill vi söka?) Hur vill vi få resultaten? 2 / 40

Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? Hur söker vi? (Hur vill vi söka?) Hur vill vi få resultaten? Vad är viktigt med söktjänster? 2 / 40

är del av vårt liv! Strukturerade Ostrukturerade 3 / 40

Terminology Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). Strukturerade Ostrukturerade 4 / 40

Terminology Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). Information Extraction (IE) is extracting structured information from unstructured machine-readable documents by means of natural language processing (NLP). Strukturerade Ostrukturerade 4 / 40

Terminology Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). Information Extraction (IE) is extracting structured information from unstructured machine-readable documents by means of natural language processing (NLP). Strukturerade Ostrukturerade Question Answering (QA) is answering a question posed in natural language and has to deal with a wide range of question types including: fact, list, definition, how, why, hypothetical, semantically constrained, and cross-lingual questions. 4 / 40

Olika Typer av Information Strukturerade Olika dynamiska informationskällor: webben, baser, sociala medier, e-mail... Söka i en bibliotekskatalog (t.ex. med DISA) Söka relevanta e-mails, information om kompisar, aktuell musik, nyhetsflöden Söka billiga resor, busförbindelser, recensioner, programmeringshjälp Lingvistisk sökning (lingvistiska mönster i textkorpusar, speciella fenomen, historisk språkutveckling) Ostrukturerade 5 / 40

Historisk Forskning, Trender Förekomster av TV, Library, Books, Newspaper Strukturerade Ostrukturerade https://books.google.com/ngrams/ http://googlebooks.byu.edu 6 / 40

Språklig Utveckling och Förändringar in school eller at school? Strukturerade Ostrukturerade 7 / 40

Språklig Utveckling och Förändringar in school eller at school? Strukturerade Ostrukturerade 7 / 40

Talsökning Strukturerade Man kan också vilja söka efter tal, t.ex. för att hitta ett uttalande i en intervju som bara finns som ljudinspelning Fri sökning i ljudinspelningar är ännu inte fullt utvecklad Vi kan dock redan avgöra vilket språk ett samtal förs på upptäcka när ett nytt ämne introduceras i ett samtal texta vad som sägs (med varierande kvalitet) Vi kommer att fokusera på textsökning Ostrukturerade 8 / 40

Typer av Strukturerade Ostrukturerade 9 / 40

Typer av 1. Strukturerade : kodade och sökbara i kategorier: författare, titel, ämne osv. Fördel: möjliggör specifika och exakta sökningar Nackdel: någon måste strukturera Strukturerade Ostrukturerade 9 / 40

Typer av 1. Strukturerade : kodade och sökbara i kategorier: författare, titel, ämne osv. Fördel: möjliggör specifika och exakta sökningar Nackdel: någon måste strukturera 2. Ostrukturerade : mycket större tillgänglighet (framför allt på internet) Nyckelordssökning räcker långt Strukturerade Ostrukturerade 9 / 40

Typer av 1. Strukturerade : kodade och sökbara i kategorier: författare, titel, ämne osv. Fördel: möjliggör specifika och exakta sökningar Nackdel: någon måste strukturera 2. Ostrukturerade : mycket större tillgänglighet (framför allt på internet) Nyckelordssökning räcker långt 3. : viss kategorisering men ej fullständig struktur Struktur och format ofta inkonsekventa även för samma typ av dokument (t.ex. bloggar och webrecensioner) Strukturerade Ostrukturerade 9 / 40

Strukturerade Söka i bibliotekskataloger Strukturerade Ostrukturerade För att hitta artiklar, böcker m.m. tillhandahåller bibliotek i allmänhet: en bas med information om dess innehav ett basgränssnitt för interaktion med basen t.ex. DISA, LIBRIS, WorldCat Användare söker efter exakta strängar som förekommer i fälten för författare, titel, osv. 10 / 40

Sökning i LIBRIS Strukturerade Grundläggande sökning: Nyckelord som matchar godtyckligt fält Kan kombineras med operatorer Utökad sökning: Fritext Titel/ord i titel Författare/upphovsman Ämne. Ostrukturerade 11 / 40

Specialtecken och operatorer Förutom exakta strängar kan man även använda specialtecken för att förkorta flera söksträngar * för att trunkera tecken i slutet av ett ord? för att ersätta exakt ett tecken varsomhelst i ett ord Strukturerade Ostrukturerade 12 / 40

Specialtecken och operatorer Förutom exakta strängar kan man även använda specialtecken för att förkorta flera söksträngar * för att trunkera tecken i slutet av ett ord? för att ersätta exakt ett tecken varsomhelst i ett ord booleska operatorer för att kombinera två söksträngar x AND y x OR y x AND NOT y. Strukturerade Ostrukturerade 12 / 40

Ostrukturerade Ingen explicit kategorisering av de dokument som söks Liknar nyckelordssökning i strukturerade Mer storskaligt, t.ex. biljoner av webbsidor Andra typer av operatorer och sätt att förfina sökningar Strukturerade Ostrukturerade Med ostrukturerad menas: att strukturen inte är fördefinierad att strukturen inte är likformig och standardiserad att sökfrågor (därför) inte kan förutsätta en viss struktur 13 / 40

Informationsbehov Sökning förutsätter ett informationsbehov Informationsbehov översätts till en sökfråga Detta är en inexakt process (1) a. Informationsbehov: en eller flera ryska översättningar av det engelska ordet table b. Möjlig sökfråga: russian translation table Strukturerade Ostrukturerade Informationsbehovet är entydigt, sökfrågan flertydig Möjligt informationsbehov: tabell över ryska översättningar (utan ordet table) 14 / 40

Utvärdering Många välkända utvärderingsmått kommer från informationssökning: Precision = Recall = true positives true positives + false positives true positives true positives + false negatives Strukturerade Ostrukturerade 15 / 40

Utvärdering Många välkända utvärderingsmått kommer från informationssökning: Precision = Recall = true positives true positives + false positives true positives true positives + false negatives Strukturerade Ostrukturerade Uppgift: Ett system returnerar 100 dokument på en sökfråga Av dessa är 80 relevanta Totalt fanns det 200 relevanta dokument Vilken precision och recall har systemet? 15 / 40

En användare vill hitta något på webben, dvs. i filer som kan nås via hypertext transfer protocol (http) på internet går till en sökmotor, dvs. ett program som matchar dokument mot sökfrågor skriver in en sökfråga baserat på ett informationsbehov får en lista på webbsidor som kan vara relevant informationsbehovet utvärderar resultat: väljer en webbsida med den sökta informationen eller omformulerar sökfrågan Strukturerade Ostrukturerade 16 / 40

Webben Strukturerade Webbsidor är i allmänhet mindre strukturerade än poster i biblioteksbaser (med titel, författare osv.) Man söker efter ord var som helst i ett dokument Man kan inkludera meta på en webbsida, dvs. strukturerad information som inte visas på själva sidan T.ex. språk, teckenkodning, författare och nyckelord <META name= keywords lang= en-us content= vacation,greece > Ostrukturerade 17 / 40

Sökmotorer Strukturerade Sökmotorer (t.ex. Google) sparar en kopia av (nästan) alla webbsidor skapar ett index för att snabbt kunna nå sidor rangordnar sidor för att kunna rangordna sökresultat Sökmotorer kan skilja sig åt avseende: Behandling av ord: stamning: bird kontra birds stora och små bokstäver: trip kontra Trip Sökalternativ: operatorer eller speciella gränssnitt Hur sökresultat rangordnas och eventuellt klustras Ostrukturerade 18 / 40

När sökmotorer kartlägger webben, bygger de en term-dokument-matris Affair at Secret Sherlock Styles Adversary Holmes Poirot 1 0 0 Sherlock 0 0 1 adventure 1 1 1 exceedingly 1 0 1 strychnine 1 0 0 subsided 1 0 1 Strukturerade Ostrukturerade 1 betyder att ordet förekommer i dokumentet 0 betyder att det inte förekommer 19 / 40

Inverterad indexering Matrisuppbyggnaden görs i förväg, innan sökmotorn tar emot sökfrågor För att snabbare kunna hitta dokument skapas ett inverterat index Poirot 1, 4, 13, 15, 45,... Sherlock 3, 111,... adventure 1, 2, 3, 4, 5, 9, 15,... exceedingly 1, 3, 11, 25,... strychnine 1, 15, 60,... subsided 1, 3, 12, 13, 25,... Strukturerade Ostrukturerade Varje term pekar på en lista av dokument där den förekommer 20 / 40

Användning av Inverterade Index Query = Brutus AND Calpurnia Brutus 1 2 4 11 31 45 173 174 Calpurnia 2 31 54 101 Strukturerade Ostrukturerade 21 / 40

Användning av Inverterade Index Query = Brutus AND Calpurnia Brutus 1 2 4 11 31 45 173 174 Calpurnia 2 31 54 101 Intersection 2 31 Strukturerade Ostrukturerade 21 / 40

Användning av Inverterade Index Query = Brutus AND Calpurnia Brutus 1 2 4 11 31 45 173 174 Calpurnia 2 31 54 101 Intersection 2 31 Strukturerade Ostrukturerade Uppgift: Brutus or Calpurnia Brutus and not Calpurnia 21 / 40

Strukturerade I bästa fall returneras de webbsidor som matchar en sökfråga som en lista ordnad efter fallande relevans Hur kan en sökmotor som inte förstår språk avgöra en sidas relevans? Ostrukturerade 22 / 40

Strukturerade I bästa fall returneras de webbsidor som matchar en sökfråga som en lista ordnad efter fallande relevans Hur kan en sökmotor som inte förstår språk avgöra en sidas relevans? Rangordningen bestäms av hundratals faktorer, varav några av de viktigaste är: Viktning av ord efter informationsvärde och position Språkteknologisk analys av sökfråga och sidor Hur ofta ett sökresultat klickas på av användare Antal länkar till och från sidan Ostrukturerade 22 / 40

Bag of Words Model Anthony Julius The Hamlet Othello Macbeth... and Caesar Tempest Cleopatra Anthony 157 73 0 0 0 1 Brutus 4 157 0 2 0 0 Caesar 232 227 0 2 1 0 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 8 5 8 worser 2 0 1 1 1 5... Strukturerade Ostrukturerade Each document is represented by a count vector N V (term frequency). 23 / 40

TF-IDF Viktning tf (term frequency) frekventa termer får högre vikt idf (inverse document frequency) termer som förekommer i få dokument får högre vikt Strukturerade Ostrukturerade Anthony Julius The Hamlet Othello Macbeth... and Caesar Tempest Cleopatra Anthony 5.25 3.18 0.0 0.0 0.0 0.35 Brutus 1.21 6.10 0.0 1.0 0.0 0.0 Caesar 8.59 2.54 0.0 1.51 0.25 0.0 Calpurnia 0.0 1.54 0.0 0.0 0.0 0.0 Cleopatra 2.85 0.0 0.0 0.0 0.0 0.0 mercy 1.51 0.0 1.90 0.12 5.25 0.88 worser 1.37 0.0 0.11 4.15 0.25 1.95... 24 / 40

Språkteknologisk analys Strukturerade Ordklasstaggning Är round substantiv eller adjektiv? Är fly substantiv eller verb? Syntaktisk parsning Oracle acquired Sun vem köpte vem? Ostrukturerade Entitetsextraktion Är breaking bad en TV-serie? Är Sandy en orkan? 25 / 40

Webblänkar Exempel Sidorna X, Y, och Z länkar alla till sidan A A X Strukturerade Ostrukturerade Z Y Är dessa länkar bättre eller sämre än länkarna till sidan B? B X V W Det beror på hur populära (eller auktoritativa) länkarna är 26 / 40

Webblänkning Mäta popularitet För att jämföra populariteten hos A och B, kan vi låta de länkande sidorna rösta Varje länkande sida får antal röster i proportion till dess egen popularitet X lägger 15 röster på A, Y lägger 10 och Z lägger 20: Strukturerade Ostrukturerade A X : 15 Z : 20 Y : 10 Men nu har A 45 röster. Är inte det för många? 27 / 40

Webblänkning Fördelning av utgående länkar Den lösning Google använder (som kallas PageRank) är att sprida ut varje sidas röster på alla sidor som den röstar på A 5 X : 15 5 B 5 Strukturerade Ostrukturerade C Antag att A efter att vi spridit ut rösterna får 12 röster Denna poängsumma betyder ingenting i sig själv Men om vi jämför med sidan B, som får 10 röster, kan vi säga att A är mer populär/auktoritativ 28 / 40

Webblänkning Rangordning med webblänkar Strukturerade Sammanfattningsvis finns det två faktorer att ta hänsyn till: Inkommande länkar Utgående länkar Ostrukturerade Google använder (ungefär) följande beräkning, där R(X) står för X:s rang och C(X) står för antalet utgående länkar från X R(A) = R(X) C(X) + R(Y) C(Y) + R(Z) C(Z) 29 / 40

Webblänkning Varför? Strukturerade Ostrukturerade 1. Vi summerar A:s inkommande länkar för att se hur populär A är bland andra sidor 2. Vi dividerar med antalet utgående länkar från X, Y och Z för att fördela deras röster över alla sidor de länkar till Om vi inte dividerade, skulle A få en enorm poängsumma (och sidor den länkar till en ännu större) På så sätt kan vi mäta hur populär en sida är, vilket är en av de faktorer som används för att rangordna sökresultat 30 / 40

innehåller någon kategorisering men är inte helt strukturerade Exempel: Wikipedia, Internet Movie Database Eftersom användare lägger in mycket av innehållet, kan struktur och kategorier variera Jämför (IMDB): Greta Garbo (1905 1990) Greta Lovisa Gustafsson was born in Stockholm, Sweden... Born: Greta Lovisa Gustafsson, September 18, 1905 in Stockholm, Stockholms län, Sweden Died: April 15, 1990 (age 84) in New York City, New York, USA Ingrid Bergman (I) (1915 1982) Ingrid Bergman was born in Stockholm, Sweden... Born: August 29, 1915 in Stockholm, Sweden Died: August 29, 1982 (age 67) in Chelsea, London, England, UK Strukturerade Ostrukturerade 31 / 40

Reguljära uttryck Varför? Strukturerade Ostrukturerade Om vi vill kunna beskriva mer komplexa textmönster, räcker det inte alltid med booleska operatorer Antag t.ex. att vi i en stor textsamling vill hitta alla postnummer som börjar med 112 alla epost-adresser till Uppsala universitet I sådana sammanhang är reguljära uttryck användbara. 32 / 40

Reguljära uttryck Vad är det? Ett reguljärt uttryck är en kompakt beskrivning av ett formellt språk, dvs. en mängd strängar över ett alfabet Reguljära uttryck kan användas för att söka efter förekomster av dessa strängar De kallas reguljära uttryck därför att de endast kan beskriva s.k. reguljära språk Detta betyder att de inte kan användas för alla typer av strängar, t.ex. strängar med matchande parenteser (lika många höger- som vänsterparenteser) Reguljära uttryck innehåller ingen språkkunskap men kan användas för att söka efter strängar i naturligt språk Strukturerade Ostrukturerade 33 / 40

Reguljära uttryck Populära verktyg Strukturerade Ostrukturerade Många unix/linux-verktyg (grep, sed,... ), textredigerare (emacs, vi,... ) och programspråk (Python, Java,... ) inbegriper reguljära uttryck Implementationerna är tillräckligt effektiva för att söka igenom stora textfiler men inte hela webben De olika verktygen skiljer sig åt med avseende på syntax och vilka typer av reguljära uttryck de stöder 34 / 40

Korpusar En korpus är en samling text (eller andra språk) Lingvister och språkteknologer har skapat digitala korpusar bestående av tidningstext, skönlitteratur och andra typer av text Storleken varierar från några tusen ord till flera miljarder Exempel British National Corpus (BNC) en korpus på ca 100 miljoner ord bestående av många olika typer av skriven och talad brittisk engelska European Parliament Proceedings Parallel Corpus 1996 2003 (Europarl) är en flerspråkig parallell korpus med protokoll från EU-parlamentet Stockholm-Umeå Corpus (SUC) är en korpus på ca 1 miljon ord med skriven svenska i olika genrer Strukturerade Ostrukturerade 35 / 40

Korpussökning Många korpusar har online-verktyg för sökning Dessa sökverktyg stöder ofta reguljära uttryck för avancerad sökning Dessutom kan man ofta söka på annoterade språkliga kategorier, t.ex. ordklass SUC och andra svenska korpusar finns på Språkbanken Hemsida: http://spraakbanken.gu.se/ Sökverktyg: Korp Strukturerade Ostrukturerade Parallella korpusar finns i OPUS Hemsida: http://opus.lingfil.uu.se/ Sökverktyg: Corpus Query Workbench 36 / 40

Kollokationer Vad är skillnaden mellan strong och powerful? Strukturerade Ostrukturerade 37 / 40

Kollokationer Vad är skillnaden mellan strong och powerful? Strukturerade Ostrukturerade 37 / 40

igure 1: A syntactic ngram appearing 112 times in the xtended-biarcs Syntaktisk Information set, which include structures containing three ontent words (see Section 4). Grayed items are non-content Mäta likhet mellan 2 ord med hjälp av dess syntaktiska ords and are not included in the word count. The dashed kontext uxiliary have is a functional marker (see Section 3), apearing only in the extended-* Likhet mellan Rock och Jazz sets. Likhet mellan Rock och Stone Strukturerade Ostrukturerade fine-g noun A notat et al. tive q in wh are li speec pende an ea and fl resea grain analy 38 / 40

Sammanfattning Strukturerade Ostrukturerade behövs i vardag och professionellt Text, tal, multi-media Ostrukturerade, semi-strukturerade, strukturerade Sökning måste gå blixtsnabbt Relevansrangordning är viktigt 39 / 40

skurs på våren Kursbok: Strukturerade Ostrukturerade Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to Information Retrieval, Cambridge University Press, 2008 Finns gratis on-line: http://www-csli.stanford.edu/ hinrich/information-retrieval-book.html 40 / 40