2D1418, Språkteknologi

Relevanta dokument
2D1418, språkteknologi. Vad är WordNet? Hans Eriksson december Datorpost personnummer:

Åke Viberg. 1. WordNet


Semantik. Semantik och språkteknologi

Språkteknologi och Open Source

Språkteknologi. Språkteknologi

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Ontologier. Cassandra Svensson

Skrivträning som fördjupar den naturvetenskapliga förståelsen Pelger, Susanne

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Engelska åk 5 höstterminen 2013

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Beijer Electronics AB 2000, MA00336A,

Pedagogisk planering. Ron Chlebek. Centralt Innehåll. Svenska/Engelska. Lego Mindstorms. Syfte: Matematik

Svensk nationell datatjänst, SND BAS Online

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

Workplan Food. Spring term 2016 Year 7. Name:

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

Writing with context. Att skriva med sammanhang

Quick Start Guide Snabbguide

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Semantiska relationer. Hanna Seppälä Uppsala universitet 1

SYMBERED. - en SYMbol-BEgrepps-REDigerare NUH. Presenterad av Mats Lundälv Författare: Katarina Mühlenbock & Mats Lundälv DART.

Småprat Small talk (stressed vowels are underlined)

Klicka här för att ändra format

Strategy for development of car clubs in Gothenburg. Anette Thorén

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Windlass Control Panel v1.0.1

InstalationGuide. English. MODEL:150NHighGain/30NMiniUSBAdapter

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Support Manual HoistLocatel Electronic Locks

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Språkteknologi (SV2122) Föreläsning 3: Programmering i Python

State Examinations Commission

2.1 Installation of driver using Internet Installation of driver from disk... 3

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Sri Lanka Association for Artificial Intelligence

Lingvistiskt uppmärkt text

Agenda. Plats och magkänsla. Presentation. - en pedagogisk fråga?

Statistisk grammatikgranskning

Ordklasser och satsdelar

HUME HANDOUT 1. Han erbjuder två argument för denna tes. Vi kan kalla dem "motivationsargumentet" respektive "representationsargumentet.

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Framtidens fordon. Douglas Halse TE14A

Teoretisk lingvistik och datalingvistik. Robin Cooper

Förskola i Bromma- Examensarbete. Henrik Westling. Supervisor. Examiner

Objektorienterad programmering

FANNY AHLFORS AUTHORIZED ACCOUNTING CONSULTANT,

Ready for Academic Vocabulary?

- den bredaste guiden om Mallorca på svenska! -

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Swedish adaptation of ISO TC 211 Quality principles. Erik Stenborg

SVENSK STANDARD SS :2010

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

(Data)Modellering. nikos dimitrakas rum 2423

Solowheel. Namn: Jesper Edqvist. Klass: TE14A. Datum:

Boken. Kapitel 10. Kapitel 11. Kap Ej Kap 10.7, det tar vi senare Resten, läs själva

Ansökan till Vinnova PROJEKTUPPGIFTER. Diarienummer. Inskickad. Utlysning

Göra lika i båda leden

Dubbelt seende, dubbla skördar?

Medicin till u-länder. Lidgard, Hans Henrik. Unpublished: Link to publication

Skyddande av frågebanken

Module 6: Integrals and applications

svenska kurskod: sgrsve7 50

Obesvarade frågor från F1

HUR OCH VARFÖR DIGITAL!

Wittgenstein for dummies Eller hur vi gör det obegripliga begripligt. Västerås 15 februari 2017

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig.

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

HANTERING AV UPS CX

Grammatik för språkteknologer

Grafisk visualisering

Det FRIA ORDET - ska det vara något - också för användare av AKK?

Preschool Kindergarten

Inlämningsuppgift: Pronomenidentifierare

familjerådslag för dementa

5. Gör det samma med böcker som du tror nyblivna föräldrar kan komma att låna.

Mönster. Ulf Cederling Växjö University Slide 1

Teknisk rapport SIS-TR 18:2007 Publicerad/Published: Utgåva/Edition: 1 Språk/Language: svenska/swedish ICS: ;

SVENSK STANDARD SS-EN :2007+A2:2012/AC:2013

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Cristina Eriksson oktober 2001

English. Things to remember

CARRY YOU HOME. I've been knocked down, I've been lost With the ground shaking under my feet I gave it all to someone, who'd said fire, run

LARS. Ett e-bokningssystem för skoldatorer.

SVENSK STANDARD SS-EN ISO :2009/AC:2010

Arbeta med Selected Works en lathund

Centralt innehåll. Tala, lyssna och samtala. Läsa och skriva. Berättande texter och faktatexter. Språkbruk. I årskurs 1-6

Svensk grammatik Ordklasser!

729G74 IT och programmering, grundkurs. Tema 2, Föreläsning 1 Jody Foo,

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi.

Surfaces for sports areas Determination of vertical deformation. Golvmaterial Sportbeläggningar Bestämning av vertikal deformation

Transkript:

2D1418, Språkteknologi Uppsatsuppgift: Wordnets uppbyggnad Johnny Bigert, d95-jbi@nada.kth.se 19 oktober 2001 Bakgrund När man bygger system för stavningskontroll och grammatikkontroll behöver man stora mängder information om hur målspråket ser ut. Om vi bygger system för svenska måste vi ha stora lexikon över det svenska språket. Bland denna information behöver vi för varje ord information om lemma (dvs grundform), antal förekomster och vilka ordklasser ordet tillhör. Med denna information kan man komma långt om man vill bygga system för olika former av språkgranskning. Något som oftast inte anges i befintliga lexikon (papper eller digitala) är hur orden förhåller sig till varandra. Lexikonen är ordnade i stigande alfabetisk ordning vilket gör att relaterade ord inte nödvändigtvis hamnar nära varandra. Från den givna information kanske man kan utläsa vissa samhörigheter mellan ord, såsom relationen mellan flygplan och vingar. Dock saknar man strukturerad information om hur ord hänger ihop. Relationer mellan ord säger något om hur människan tänker på ord och deras betydelse. Relationer mellan ord var något som forskarna länge saknat och för att råda bot på detta startade man ett projekt kallat Wordnet. Wordnets uppkomst Wordnet startades 1985 på Princeton i USA (Miller, 1985) och är en lexikalt referensverk för det engelska språket. Idén bakom projektet var att kombinera klassiska lexikon med den, på den tiden, nymodiga datorkapaciteten och därmed få ett referensverk som var ordnat konceptuellt istället för alfabetiskt. Man kan säga att Wordnet är ett lexikon baserat på psykolingvistisk information, dvs indelat på samma sätt som en människa delar in orden. Wordnets upplägg Wordnet är uppdelat i fem kategorier: substantiv, verb, adjektiv, adverb och funktionsord (såsom prepositioner, konjunktioner och dyl.). Under dessa toppkategorier ligger sedan huvudkategorier för varje ordklass. I substantivkategorin finns bl.a. entity, something och psychological feature som toppkategorier. 1

Under entity, something kan vi t.ex. hitta huvudkategorin object, physical object och under den artifact, artefact som innehåller föremål skapade av en människa. Exempel på Wordnets semantiska träd Om ett ord x ligger ovanför ett ord y i trädet, innebär det att y är en x. Ju längre ned i trädet man tittar, desto mer konkreta och specifika blir orden. Ta till exempel uppslagsordet bil: car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle) => motor vehicle, automotive vehicle -- (a self-propelled vehicle) => vehicle -- (a conveyance that transports people or objects) => conveyance, transport -- (a means of transportation) => instrumentation -- (accomplishing some end) => artifact, artefact -- (a man-made object) => object, physical object -- (a physical entity) => entity, something -- (anything having existence) Vi ser här att en bil är ett motorfordon som är ett fordon. Fordonet är ett transportmedel som är ett människotillverkat föremål med en specifik uppgift i åtanke. Detta föremål är i sin tur ett fysiskt objekt som ligger under kategorin någonting som existerar. Ett annat exempel: love, passion -- (any object of warm affection or devotion) => object -- (the focus of cognitions or feelings) => content, mental object -- (something perceived) => cognition, knowledge -- (result of perception) => psychological feature -- (mental feature) I exemplet med kärlek, som är ett abstrakt substantiv, blir kategorierna genast mer svårdefinierade. Nästa exempel är ett lite annorlunda extrakt ur Wordnets semantiska träd. Här har vi tagit ut de verb som har ungefär samma betydelse som ordet obtain (få, erhålla). De ord som visas här är troponymer, vilket är en sorts synonymer som beskriver particular ways to obtain (olika sätt att få/erhålla). obtain -- (come into possession of; "How did you obtain the visa?") => carry -- (secure the passage or adoption) => excavate, dig up, turn up -- (find by digging in the ground) => grub up, grub out -- (of roots and tree stumps, for example) => nuzzle -- (dig out with the snout, of animals) => disinter, exhume -- (dig up for reburial or investigation) => extort, wring from -- (get in a difficult or laborious manner) => pry, prise -- (make an uninvited or presumptuous inquiry) => procure, secure -- (get by special effort) => copyright -- (secure a copyright on a written work) => patent -- (obtain a patent for) => engage, enlist -- (as of aid, help, services, or support) => recruit -- (seek to employ) => extract -- (get despite difficulties or obstacles) 2

=> take out -- (obtain by legal of official process) => get in, get into -- (secure a place in a university, etc.) => eke out, squeeze out -- (obtain with difficulty) => mooch, bum, cadge, grub, sponge -- (ask for and get free) => freeload -- (live off somebody s generosity) => derive, gain -- (obtain: "derive pleasure from one s garden") => reap, draw -- (get or derive) => shop -- (do one s shopping) => snag -- (get by acting quickly and smartly) => grab -- (obtain illegally or unscrupulously; "Grab power") Lexikala och semantiska relationer Förutom trädstruktur har Wordnet även tillägg som märker upp relationer mellan ord. Wordnet kan därför användas för att extrahera många olika sorters lexikala och semantiska relationer mellan ord: synonymer Att två ord är synonyma innebär att de har samma eller liknande mening. Det finns inte många ordpar som faktiskt har precis samma mening, dvs är utbytbara i alla sammanhang. Bland filosofer brukar det heta att synonymitet är en av ändarna på en kontinuerlig skala över hur lika två ord är varandra. antonymer Antonymitet är lite svårt att definiera, men innebär ungefär att två ord har motsatt mening. Svårigheten i definitionen visas kanske bäst genom exempel: Rik och fattig anses vara motsatta ord men att vara icke rik behöver inte betyda att man är fattig. Samtidigt är inte motsatsen till kärlek nödvändigtvis hat, utan snarare likgiltighet. hypernymer/hyponymer Hypernymer och hyponymer är det som ligger till grunden för Wordnets trädstruktur. Ett ord x är en hypernym till y om man kan säga att y är en x ; samtidigt är då y en hyponym till x. Till exempel är lönn en hyponym till träd och träd en hyponym till växt. Följaktligen är växt en hypernym till både träd och lönn. meronymer/holonymer Meronymer och holonymer beskriver hur saker och ting är uppbyggda och vad de består av. Till exempel är flygplan en meronym till (dvs har) vingar och landningshjul. Hjul och ratt är exempel på holonymer till (dvs ingår i) en bil. Tillämpningar Vi ska nämna några få av Wordnets tillämpningar utan att gå in på några detaljer. Exemplen är tagna ur boken Wordnet An electronical lexical database (Fellbaum, 1998). Taggning av ordbetydelser Eftersom Wordnet innehåller semantiska relationer mellan ord så informationen använts för just semantiska syften. I boken ovan nämns ett försök med taggning och disambiguering av ords betydelse (Landes m.fl., 1998). Varje ord i den 3

givna texten skulle tilldelas en betydelse ur Wordnets kategorier. De resulterande, taggade texterna är användbara i många hänseenden: för att finna nya betydelser för ord, samla statistik för frekvenser på ordbetydelser, testa disambiguering i informationssökning och klustring av dokument samt för att träna disambigueringsalgoritmer. Lexikala kedjor En annan tillämpning nämnd i samma bok behandlar något som kallas lexikala kedjor (Hirst, St-Onge, 1998). Här drar man nytta av att ord med ungefär samma betydelse ofta refererar till samma sak. Alla ord som har liknande betydelse läggs i samma lexikala kedja. I texten kommer det då att löpa många lexikala kedjor, och dessa kan användas på diverse intressanta sätt. Ett exempel är textsammanfattning. De stycken som innehåller delar ur många av de lexikala kedjorna är troliga kandidater till att innehålla intressant information som ska vara med i sammanfattningen. En annan tillämpning är rättstavning. Man använder betydelsen hos orden i de lexikala kedjorna för att undersöka om ord med lika uttal eller stavning kan vara felstavade. Om en lexikal kedja passerar nära en sådant ord kan detta vara ett tecken på felstavning. Exempel: I en väderrapport har man stött på meningen The whether on Monday will be cloudy och undrar om whether är korrekt. Genom texten löper minst en lexikal tråd som behandlar väder. Man har slagit upp whether och upptäckt att det ingår i ett par av ofta förväxlade ord [ whether, weather ] och drar slutsatsen att ordet som avsågs förmodligen var weather. Diskussion Wordnet är ett mycket ambitiöst projekt som nu har fått efterföljare för t.ex. europeiska språk (EuroWordNet, Bloksma m.fl., 1996). Med Wordnets relationsinformation mellan ord kan man utvinna mycket intressant semantisk information och lösa problem såsom disambiguering av betydelse för ord med samma stavning och dyl. Wordnets upplägg har dessutom inspirerat ordboksbranschen och även om hierarkiska upplägg inte lämpar sig i pappersformat bör vi få se traditionella ordböcker i digital form med en mer semantisk uppdelning. Referenser Bloksma, L., Díez-Orzas, P. och Vossen, P. 1996, User requirements and functional specification of the EuroWordNet project, EuroWordNet (LE-4003) deliverable D001, University of Amsterdam. Fellbaum, C. (editor) 1998, WordNet An electronic lexical database, Christiane Fellbaum (editor), The MIT Press, ISBN 0-262-06197-X Hirst, G. och St-Onge, D. 1998, Lexical chains as representations of context for the detection and correction of malapropisms, i Christiane Fellbaum (editor), WordNet: An electronic lexical database and some of its applications 4

Landes, S., Leacock, C. och Tengi, R. 1998, Building semantic concordances, i Christiane Fellbaum (editor), WordNet: An electronic lexical database and some of its applications Miller, G. A. 1985, Wordnet: A Dictionary Browser i Information in Data, Proceedings of the First Conference of the UW Centre for the New Oxford Dictionary. Waterloo, Kanada: University of Waterloo 5