2D1418, språkteknologi Vad är WordNet? Hans Eriksson 1 19 december 2000 1 Datorpost d97-hae@nada.kth.se, personnummer: 770628
1 WordNet WordNet är ett projekt som syftar till att konstruera ett digitalt lexikon över det engelska språket. Till skillnad från de flesta vanliga lexikon läggs tonvikten inte på orden i sig utan snarare på relationerna mellan dessa. Substantiv, verb, adjektiv och adverb grupperas och länkas samman enligt vissa relationskriterier (mer om detta senare i texten).[mil93] De länkade grupperna ger upphov till ett nätverk, därav namnet WordNet. Lexikon av den här typen där en mängd grupper binds samman av relationer brukar kallas för ontologier. [JM00] Projektet påbörjades för ca. 15 år sedan på Cognitive Science Laboratory, Princeton University under ledning av professor George A. Miller. Word- Net innehåller i dag över 168 000 engelska ord och mer än 345 000 relationer mellan dessa.[hay99] Systemet består av tre databaser: en för substantiv, en annan för verb och ytterligare en för adjektiv och adverb. Åtkomst till databaserna kan ske med hjälp av en browser antingen lokalt eller över Internet eller via biblioteksfunktioner för bl.a. C och Perl.[per00] WordNets webbsidor finns på http://www.cogsci.princeton.edu/ wn/. Uppslagning WordNet innehåller ingen fonetisk information och uttalet tas därmed inte i anspråk när resultatet av en sökning presenteras för en användare. Resultaten grupperas heller inte efter betydelse. WordNet skiljer inte homonymi 1 från polysemi 2. [JM00] Relationer Det mest naturliga sättet för relationer mellan ord kan möjligen anses vara synonymitet. I WordNet används synonymitet, men strukturen på den lexikala grafen kommer huvudsakligen från andra typer av relationer mellan ord. Synonymitet I WordNet anses två ord vara synonyma om de kan bytas ut mot varandra i något sammanhang. Synonymer ordnas i grupper (eng. synsets). Ord som förmedlar samma uppfattning tillhör en och samma grupp. Litet mer vetenskapligt skulle man kunna beskriva lagringen av synonymer på följande sätt. I stället för att representera koncept i logiska termer representerar WordNet dessa genom att uttrycka dem som listor bestående av lexikala enheter. De lexikala enheterna i listorna beskriver konceptet. Relationer mellan substantiv Substantiv ordnas i trädlik struktur enligt är-en - eller har-en -relationer. T.ex.: En apa är ett däggdjur som är ett djur som är en organism (se figur 1). Den här typen av relationer kallas hyponymitet. Ordet apa är en hyponym för däggdjur som är en hyponym för djur o.s.v.. Hypernymer beskriver samma relationer som hyponymer, sedda från andra hållet. Således är organism hypernym till djur o.s.v. Relationerna i WordNet är detaljrikare 1 Ett förhållande mellan ord som har samma form, fast olika betydelse. 2 flertydighet
2 Hyper och hyponymitet (är en...) Meronymitet (har en...) Holonymitet (är medlem i..., är en del av...) organism förrätt är medlem i EEC middag varmrätt Danmark är medlem i NATO hyponymitet djur däggdjur hypernymitet efterrätt är en del av Skandinavien apa Figur 1: Relationer mellan substantiv i WordNet än så här. De innefattar bl.a. även släkt- och artrelationer. Nedan visas en utskrift från WordNet när vi frågar efter hypernymer till substantivet apa. WordNet 1.6 results for "Hypernyms (this is a kind of...)" search of noun "monkey" Sense 1 monkey -- (any of various long-tailed primates (excluding the prosimians)) => primate -- (any placental mammal of the order Primates; has good eyesight and flexible hands and feet) => placental, placental mammal, eutherian, eutherian mammal -- (mammals having a placenta; all mammals except monotremes and marsupials) => mammal -- (any warm-blooded vertebrate having the skin more or less covered with hair; young are born alive except for the small subclass of monotremes and nourished with milk) => vertebrate, craniate -- (animals having a bony or cartilaginous skeleton with a segmented spinal column and a large brain enclosed in a skull or cranium) => chordate -- (any animal of the phylum Chordata having a notochord or spinal column) => animal, animate being, beast, brute, creature, fauna -- (a living organism characterized by voluntary movement) => life form, organism, being, living thing -- (any living entity) => entity, something -- (anything having existence (living or nonliving)) Varje synonymgrupp står i direkt relation till andra, mer generella och mer specifika, synonymgrupper i form av hyper- eller hypononi-relationer. Ytterligare en relation är har-en relationer, meronymi. Stundtals kan det vara svårt att avgöra om en relation är hyponym eller meronym. Figur 1 visar dock ett ganska entydigt exempel på en meronymrelation. Middag har meronymer som t.ex. förrätt, varmrätt och efterrätt. [Ced00] Relationer som binder samman grupper kallas holonymitet. T.ex. är Danmark medlem i EEC och NATO och dessutom en del av Skandinavien (se figur 1). Relationer mellan verb Hos verb finns det en relationstyp som till stor del liknar hyponomi hos substantiv. Denna typ av relation för verb kallas troponymi. Exempelvis är verbet marschera en troponym till (att) gå.
3 Det finns också en verbrelation mycket lik meronymi. Relationen definierar olika delar av en handling. Ordet stega är t.ex. en del av gå. [Hay99] Antonymi motsatspar Till skillnad från substantiv och verb relateras adjektiv inte på något trädliknande sätt. Istället ordnas de i motsatspar som varm kall. Adjektiv som inte har någon direkt motsats grupperas i kluster kring s.k. fokalpar. Fokalpar är motsatspar där de motstående orden begreppsmässigt står i direkt motsats till varandra. Antag att vi ställer en fråga: Vilken motsats har ordet x? Om x inte finns med i ett fokalpar får vi svaret: x har motsatsen z via y, där y är det ordet i fokalparet i den kluster x tillhör. [JM00] Säg att vi vill ta reda på motsatsen till ordet vek. WordNet svarar då stark (via svag). Här tillhör vek klustret svag. Användningsområden WordNet används förutom som ett vanligt lexikon även för att skapa en bild av det engelska språket att analysera samband mellan ord. Det finns forskningsprojekt där WordNet används för generering av naturligt språk. [Jin99] WordNet har också framgångsrikt använts vid automatisk ämnesgruppering, concept clustering, av ljud- eller bildupptagningar från konferenser. [JK97]
Litteraturförteckning [Ced00] P. Cederberg. WordNet en introduktion. Internet URL: http://www.d.kth.se/ d93 pol/tech/essays/wordnet/wordnet sv.html, kontrollerad 2000-12-18, 2000. [Hay99] B. Hayes. The Web of Words. American Scientist, volume 87, sid 108 112, 1999. [Jin99] H. Jing. Usage of WordNet in Natural Language Generation. National science foundation, 1999. [JK97] R. Kazman J. Kominek. Accessing Multimedia through Concept Clustering. University of Waterloo och ACM, 1997. [JM00] D. Jurafski J.H. Martin. Speech and Language Processing, sid 602 606. Prentice Hall, 2000. [Mil93] G.A. Miller. Five papers on WordNet. Princeton University, 1993. [per00] WordNet Perl module. Internet URL: http://www.ai.mit.edu/ jrennie/wordnet/, kontrollerad 2000-12-18, 2000. 4