2D1418, språkteknologi. Vad är WordNet? Hans Eriksson december Datorpost personnummer:

Relevanta dokument
Semantik. Semantik och språkteknologi

2D1418, Språkteknologi

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Åke Viberg. 1. WordNet

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Ontologier. Cassandra Svensson

Språkteknologi och Open Source

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

Språkteknologi. Språkteknologi

Semantiska relationer. Hanna Seppälä Uppsala universitet 1

Svensk nationell datatjänst, SND BAS Online

Falcon och QA- system generellt

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Lektion 4, måndagen den 8 februari, Svenska för internationella studenter, kurs 1

Kungl. Tekniska högskolan NADA Grundformer med Stava

Engelska. Inför provet v. 48. Grammatik. Substantiv uncountables s.124. När man översätter meningar där orden ingår ska man använda följande ord:

Språkteknologi (SV2122) Föreläsning 3: Programmering i Python

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

Word sense disambiguation med Svenskt OrdNät

Samhälle och karriärutveckling Stockholm sept 2011 Voice of Users

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Svenskans struktur, 7,5 hp Tentamensexempel 1

INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI ETIK VT-15 DJURETIK OCH MORALISK STATUS

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Grundläggande textanalys. Joakim Nivre

Svensk vuxenutbildning i ett Nordiskt perspektiv Stockholm 7 okt 2011 Voice of Users. 20 oktober 2011

Informatik C, VT 2014 Informationssökning och referenshantering. Therese Nilsson

Datakörkortet. Dataföreningen Det Europeiska Datakörkortet, Maj 2003

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

De flesta orden finns under substantiv men flera exempel på verb och adjektiv finns också med i appen.

Snabbguide till Cinahl

PubMed gratis Medline på Internet 1946-

Från extern till intern på tre dagar Erfarenheter från externa lärares pedagogiska kompetensutveckling

Maskinöversättning 2008

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Lilla CINAHL-lathunden

Datakursen PRO Veberöd våren 2011 internet

Lingvistiska grundbegrepp

Växtfrön sprids med vinden eller med djur. Hur sprids kryddörtens frön? Växtfrön sprids med vinden eller med djur. Hur sprids kittelgräsets frön?

Word- sense disambiguation

Hur påverkas din puls av dykning?

Hur man hjälper besökare hitta på en webbplats

Sö ka litteratur i ERIC

Sri Lanka Association for Artificial Intelligence

Skrivträning som fördjupar den naturvetenskapliga förståelsen Pelger, Susanne

INFORMATIONSMODELLERING

Arbetsplan i Thailändska

Bootstrapping för substantivtaggning

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

(Data)Modellering. nikos dimitrakas rum 2423

Introduktion till frågespråket SQL (v0.91)

J. Japan Association on Odor Environment Vol. -2 No. -,** Flavor * + * *, **

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

PubMed (Medline) Fritextsökning

Pilen 2:1-2:2 O / OO. Steg 2:1 Dator Laborativ övning Arbetsblad. Steg 2:2 Dator Laborativ övning Arbetsblad

UB:s sö ktjä nst - Söka artiklar och annan litteratur

#minlandsbygd. Landsbygden lever på Instagram. Kul bild! I keep chickens too. They re brilliant.

Kort om World Wide Web (webben)

Lektion 3. Anteckningar

Structured Query Language (SQL)

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Cinahl sökguide. Enkel sökning. Ämnesordsökning

Cristina Eriksson oktober 2001

PEC: European Science Teacher: Scientific Knowledge, Linguistic Skills and Digital Media

onsdag den 21 november 2012 PRONOMEN

Kritiskt tänkande HTXF04:3 FTEB05. Grundläggande semantik II

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013

Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

Sjukhusbiblioteket i Karlstad, september 2012, Modifierad av Linköpings universitetsbibliotek tisdag den 11 december 2018

Källuppgifter i fysik FAFA55

Institutionen för datavetenskap vid Helsingfors universitet

Det FRIA ORDET - ska det vara något - också för användare av AKK?

- Kan skriva grundläggande information utifrån sig själv t.ex. personnummer, adress, telefonnummer etc.

Svensk grammatik Ordklasser!

DRUGLINE. med Drugle. Karolic

3. Klicka på en knapp, tryck på ALT N, eller tryck på ENTER

Kursplan. NA1032 Makroekonomi, introduktion. 7,5 högskolepoäng, Grundnivå 1. Introductory Macroeconomics

ADDENBROOKES KOGNITIVA UNDERSÖKNING Reviderad Version (2005)

Hur leder vi transformationer?

Annika Mårtensson Marianne Billström REVIDERAD! Nu med fokus på olika texttyper.

Mis/trusting Open Access JUTTA

balans Serie 7 - The best working position is to be balanced - in the centre of your own gravity! balans 7,45

Skriva utbildningsbeskrivningar

Söka artiklar i CSA-databaser Handledning

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

Introduktion till programmering

Import av referenser till Mendeley

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Litteratursökning och referenser. Agenda. Vetenskapliga artiklar (granskade) Ej vetenskapligt granskade källor.

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Innehållsförteckning till Svenska Online. Adress: Uppdaterat

Det här dokumentet är till för att ge en översikt över ASP.NET MVC samt hur WCF Services används från.net applikationer.


Föreläsning 15: Repetition DVGA02

Praktisk Information

Lathund till PsycINFO (OVID)

Depression. En-måmads förekomst 10% Mer vanligt än demens efter 65

Transkript:

2D1418, språkteknologi Vad är WordNet? Hans Eriksson 1 19 december 2000 1 Datorpost d97-hae@nada.kth.se, personnummer: 770628

1 WordNet WordNet är ett projekt som syftar till att konstruera ett digitalt lexikon över det engelska språket. Till skillnad från de flesta vanliga lexikon läggs tonvikten inte på orden i sig utan snarare på relationerna mellan dessa. Substantiv, verb, adjektiv och adverb grupperas och länkas samman enligt vissa relationskriterier (mer om detta senare i texten).[mil93] De länkade grupperna ger upphov till ett nätverk, därav namnet WordNet. Lexikon av den här typen där en mängd grupper binds samman av relationer brukar kallas för ontologier. [JM00] Projektet påbörjades för ca. 15 år sedan på Cognitive Science Laboratory, Princeton University under ledning av professor George A. Miller. Word- Net innehåller i dag över 168 000 engelska ord och mer än 345 000 relationer mellan dessa.[hay99] Systemet består av tre databaser: en för substantiv, en annan för verb och ytterligare en för adjektiv och adverb. Åtkomst till databaserna kan ske med hjälp av en browser antingen lokalt eller över Internet eller via biblioteksfunktioner för bl.a. C och Perl.[per00] WordNets webbsidor finns på http://www.cogsci.princeton.edu/ wn/. Uppslagning WordNet innehåller ingen fonetisk information och uttalet tas därmed inte i anspråk när resultatet av en sökning presenteras för en användare. Resultaten grupperas heller inte efter betydelse. WordNet skiljer inte homonymi 1 från polysemi 2. [JM00] Relationer Det mest naturliga sättet för relationer mellan ord kan möjligen anses vara synonymitet. I WordNet används synonymitet, men strukturen på den lexikala grafen kommer huvudsakligen från andra typer av relationer mellan ord. Synonymitet I WordNet anses två ord vara synonyma om de kan bytas ut mot varandra i något sammanhang. Synonymer ordnas i grupper (eng. synsets). Ord som förmedlar samma uppfattning tillhör en och samma grupp. Litet mer vetenskapligt skulle man kunna beskriva lagringen av synonymer på följande sätt. I stället för att representera koncept i logiska termer representerar WordNet dessa genom att uttrycka dem som listor bestående av lexikala enheter. De lexikala enheterna i listorna beskriver konceptet. Relationer mellan substantiv Substantiv ordnas i trädlik struktur enligt är-en - eller har-en -relationer. T.ex.: En apa är ett däggdjur som är ett djur som är en organism (se figur 1). Den här typen av relationer kallas hyponymitet. Ordet apa är en hyponym för däggdjur som är en hyponym för djur o.s.v.. Hypernymer beskriver samma relationer som hyponymer, sedda från andra hållet. Således är organism hypernym till djur o.s.v. Relationerna i WordNet är detaljrikare 1 Ett förhållande mellan ord som har samma form, fast olika betydelse. 2 flertydighet

2 Hyper och hyponymitet (är en...) Meronymitet (har en...) Holonymitet (är medlem i..., är en del av...) organism förrätt är medlem i EEC middag varmrätt Danmark är medlem i NATO hyponymitet djur däggdjur hypernymitet efterrätt är en del av Skandinavien apa Figur 1: Relationer mellan substantiv i WordNet än så här. De innefattar bl.a. även släkt- och artrelationer. Nedan visas en utskrift från WordNet när vi frågar efter hypernymer till substantivet apa. WordNet 1.6 results for "Hypernyms (this is a kind of...)" search of noun "monkey" Sense 1 monkey -- (any of various long-tailed primates (excluding the prosimians)) => primate -- (any placental mammal of the order Primates; has good eyesight and flexible hands and feet) => placental, placental mammal, eutherian, eutherian mammal -- (mammals having a placenta; all mammals except monotremes and marsupials) => mammal -- (any warm-blooded vertebrate having the skin more or less covered with hair; young are born alive except for the small subclass of monotremes and nourished with milk) => vertebrate, craniate -- (animals having a bony or cartilaginous skeleton with a segmented spinal column and a large brain enclosed in a skull or cranium) => chordate -- (any animal of the phylum Chordata having a notochord or spinal column) => animal, animate being, beast, brute, creature, fauna -- (a living organism characterized by voluntary movement) => life form, organism, being, living thing -- (any living entity) => entity, something -- (anything having existence (living or nonliving)) Varje synonymgrupp står i direkt relation till andra, mer generella och mer specifika, synonymgrupper i form av hyper- eller hypononi-relationer. Ytterligare en relation är har-en relationer, meronymi. Stundtals kan det vara svårt att avgöra om en relation är hyponym eller meronym. Figur 1 visar dock ett ganska entydigt exempel på en meronymrelation. Middag har meronymer som t.ex. förrätt, varmrätt och efterrätt. [Ced00] Relationer som binder samman grupper kallas holonymitet. T.ex. är Danmark medlem i EEC och NATO och dessutom en del av Skandinavien (se figur 1). Relationer mellan verb Hos verb finns det en relationstyp som till stor del liknar hyponomi hos substantiv. Denna typ av relation för verb kallas troponymi. Exempelvis är verbet marschera en troponym till (att) gå.

3 Det finns också en verbrelation mycket lik meronymi. Relationen definierar olika delar av en handling. Ordet stega är t.ex. en del av gå. [Hay99] Antonymi motsatspar Till skillnad från substantiv och verb relateras adjektiv inte på något trädliknande sätt. Istället ordnas de i motsatspar som varm kall. Adjektiv som inte har någon direkt motsats grupperas i kluster kring s.k. fokalpar. Fokalpar är motsatspar där de motstående orden begreppsmässigt står i direkt motsats till varandra. Antag att vi ställer en fråga: Vilken motsats har ordet x? Om x inte finns med i ett fokalpar får vi svaret: x har motsatsen z via y, där y är det ordet i fokalparet i den kluster x tillhör. [JM00] Säg att vi vill ta reda på motsatsen till ordet vek. WordNet svarar då stark (via svag). Här tillhör vek klustret svag. Användningsområden WordNet används förutom som ett vanligt lexikon även för att skapa en bild av det engelska språket att analysera samband mellan ord. Det finns forskningsprojekt där WordNet används för generering av naturligt språk. [Jin99] WordNet har också framgångsrikt använts vid automatisk ämnesgruppering, concept clustering, av ljud- eller bildupptagningar från konferenser. [JK97]

Litteraturförteckning [Ced00] P. Cederberg. WordNet en introduktion. Internet URL: http://www.d.kth.se/ d93 pol/tech/essays/wordnet/wordnet sv.html, kontrollerad 2000-12-18, 2000. [Hay99] B. Hayes. The Web of Words. American Scientist, volume 87, sid 108 112, 1999. [Jin99] H. Jing. Usage of WordNet in Natural Language Generation. National science foundation, 1999. [JK97] R. Kazman J. Kominek. Accessing Multimedia through Concept Clustering. University of Waterloo och ACM, 1997. [JM00] D. Jurafski J.H. Martin. Speech and Language Processing, sid 602 606. Prentice Hall, 2000. [Mil93] G.A. Miller. Five papers on WordNet. Princeton University, 1993. [per00] WordNet Perl module. Internet URL: http://www.ai.mit.edu/ jrennie/wordnet/, kontrollerad 2000-12-18, 2000. 4