av Åke Viberg Syftet med projektet Svenskt OrdNät är att utveckla ett betydelsebaserat svenskt lexikon på dator som kan kopplas till ett antal parallella lexikon för andra europeiska språk utvecklade i (och i anslutning till) projektet EuroWordNet. Lexikonet är tänkt som en basresurs för språkteknologiska tillämpningar på svenska såsom informationssökning, automatisk översättning, tolkning och generering av texter men är också av betydelse som en psykolingvistisk modell med tillämpbarhet bl a för språkinlärning (se Viberg 2000). Projektet beviljades medel av Humanistisk-samhällsventenskapliga forskningsrådet (HSFR) för perioden 2000-2002. HSFR:s ansvar har under projektets gång övertagits av det nybildade Vetenskapsrådet. Projektet har varit förlagt till institutionen för lingvistik i Lund utom under slutfasen 2002 då projektet flyttat till institutionen för lingvistik vid Uppsala universitet. Projektledare är Åke Viberg. Övriga medarbetare utgörs av Kerstin Lindmark, Ann Lindvall och Ingmarie Mellenius samt under delar av projekttiden Johan Dahl, Teresa Johanssson, Ulrika Serrander och Caroline Willners. 1. WordNet WordNet (Fellbaum ed. 1998) är ett datorbaserat lexikon för engelskan som utarbetats vid Princetonuniversitetet under ledning av en av kognitionsforskningens grundare, George A. Miller. Lexikonet bygger på semantiska relationer såsom synonymi, antonymi, hyponymi och meronymi (helhet/del). De viktigaste visas i figur 1. Den grundläggande enheten i ett ordnät är vad som i WordNet kallas synonymgrupp (synonym set, synset) som utgör ett
medel att beskriva ords flertydighet. Varje synonymgrupp t ex {kasta, slänga} representerar ett begrepp. Flertydiga ord förs till skilda synonymgrupper, t ex {fatta, begripa, förstå} och {fatta, gripa, ta tag i}. Dessa grupper relateras sedan till andra synonymgrupper genom semantiska relationer: {pladdra, babbla} är t ex hyponym (eller troponym, 'sättshyponym') till synonymgruppen {prata, snacka}. Semantiska relationer ÖVER-/ UNDERORDNADE BEGREPP (HYPONYMI) Exempel fordon=>bil=>skåpbil förnimma=>se=>skymta HELHET/DEL (MERONYMI) HELHET/KOMPONENT GRUPP/MEDLEM FÖREMÅL/ÄMNE, MATERIAL MOTSATSORD (ANTONYMI) SYNONYMGRUPPER gren=>kvist=>blad; svärm => bi; förening=>medlem; flotta=>skepp pinne=>trä; klippa=>sten, mineral våt torr; köpa sälja; pojke flicka blöt, våt; pojke, grabb, kille Figur 1. Grundläggande semantiska relationer i ordnät 2. EuroWordNet EuroWordNet (Vossen ed. 1999) är namnet på en samling ordnät som nyligen utarbetats för flera europeiska språk. Ursprungligen utvecklades nät för holländska, italienska och spanska samtidigt som engelska WordNet version 1.5 omformades till EuroWordNet-format. Numera föreligger även ordnät på tyska och franska och ett växande antal andra språk. Den viktigaste innovationen är att det finns en möjlighet att länka samman nät för skilda språk. Detta åstadkoms via
ett mellanspråkligt betydelseindex (Interlingual Index). En annan nyhet är utvecklandet av semantiska relationer som länkar samman ord som tillhör skilda ordklasser. Ett exempel på en sådan ordklassöverskridande relation är kopplingen mellan verb och motsvarande händelsebetecknande substantiv. Dessa uppfattas som närsynonymer och kodas XPOS_NEAR_SYNONYM. Den relationen råder t ex mellan ord som kan sättas in i ramen: Om X V-ar så äger N rum. Exempel utgörs av par som förflytta och förflyttning eller mörda och mord. Andra relationer gör det möjligt att koppla ett verb till dess typiska roller. Exempel på sådana relationer är INVOLVED_AGENT (Ex: undervisa/lärare), INVOLVED_PATIENT (undervisa / elev) och INVOLVED_LOCATION (undervisa / skola). En begränsning är att man i EuroWordNet endast kodar substantiv och verb men inte adjektiv eller adverb medan Princeton WordNet kodar alla de öppna ordklasserna. I EuroWordNet har dessutom en form av komponentanalys införts i form av en toppontologi bestående av 63 toppbegrepp som tillåter att ett ord kan anknytas till kombinationer av toppbegrepp (se figur 2). Toppbegreppen är hierarkiskt ordnade. På den översta nivån görs i enlighet med John Lyons (1977) en indelning i primära begrepp (1 st order concepts), som närmast svarar mot konkreta substantiv, sekundära begrepp (2 nd order concepts), som svarar mot abstrakta nomen och verb samt tertiära begrepp (3 rd order concepts), som utgörs av en liten grupp metaspråkliga begrepp. På dessa fördelar sig sedan 63 toppbegrepp som i sin tur organiserar drygt 1000 basbegrepp. Basbegreppen och begreppen på nivåerna däröver är tänkta att utgöra en gemensam klassifikationsgrund för ord i alla de språk som kopplas till EuroWordNet. På nivåerna under basbegreppen förekommer en hel del begrepp som är specifika för ett enskilt språk.
PRIMÄRA BEGREPP URSPRUNG Naturlig Levande Växt Människa Väsen Djur Artefakt FORM Ämne Fast Vätska Gas Föremål SAMMANSÄTTNING Del Grupp FUNKTION Fordon Representation PenningRepresentation SpråkRepresentation BildRepresentation Mjukvara Plats Sysselsättning Instrument Kläder Möbler Täckning Behållare Livsmedel Byggnad SEKUNDÄRA BEGREPP SITUATIONSTYP DYNAMISK Avgränsad händelse Oavgränsad händelse STATISK Egenskap Relation SITUATIONSKOMPONENT Orsak Agent Fenomen Stimulus Kommunikation Omständighet Existens Erfarenhet Rumsförhållande Sätt Mental Modal Fysisk Ägande Ändamål Kvantitet Social Tid Bruk Figur 2. Toppbegrepp i EuroWordNet
3. Svenskt OrdNät och språkspecifika drag i svenskan Kodningen av svenskans ordförråd har skett helt manuellt med tonvikt på att täcka substantiv och verb i basordförrådet på ett systematiskt sätt. Utgångspunkt för analysarbetet har ofta varit de ord som delar ett visst toppbegrepp. För de primära begreppen har särskilt Funktion utgjort en naturlig utgångspunkt, t ex Fordon, Kläder och Matvaror medan för de sekundära begreppen (verb och abstrakta nomen) Situationstyp utgjort en naturlig utgångspunkt. (Situationstyp svarar i många fall nära mot de semantiska fält som bildat utgångspunkt för analysen av svenska verb i tidigare studier av svenskan som Viberg 1981, 1996). I en tidigare artikel (Viberg, Lindmark, Lindvall & Mellenius 2002) ges exempel på hur vissa fält (toppbegrepp) är kodade i ordnät för skilda språk. Eftersom kodningsprinciperna i praktiken kan växla ganska kraftigt är det ofta svårt att avgöra vad som representerar genuina skillnader mellan språken. Personbetecknande substantiv (toppbegreppet Människa) har analyserats av Ingmarie Mellenius. En genomgång av Svenska akademiens ordlista (SAOL 1986) visade att inte mindre än ca 7 500 ord (mer än 6% av totalt 120 000 uppslagsord) är substantiv av detta slag. Fältet är uppenbarligen omfattande även i andra språk. Kodningen i de existerande ordnäten skiljer sig emellertid dramatiskt med avseende på hierarkiseringsgrad. Det holländska nätet har en platt struktur i detta fall genom att ordet mens har 572 direkta hyponymer medan det tyska nätet har en djupare struktur med endast 12 direkta hyponymer till ordet Mensch. Det svenska nätet har också en djup struktur med ett tjugotal direkta hyponymer till människa. Bland verben bildar förändringsverben en viktig grupp som analyseras i en uppsats av Ann Lindvall (ms. 2002). I engelskan fungerar verbet change som en generell hyperonym som har 9 skilda betydelser i det engelska ordnätet. I svenskan uttrycks motsvarande betydelser med skilda lexem, vilket är kännetecknade även för nederländskan och tyskan. Figur 3 visar de viktigaste kontrasterna. Franska: changer Engelska: change Svenska: ändra/förändra/byta/växla Nederländska: veranderen/wijzigen/wisselen Tyska: ändern/verändern/wandeln/wechseln Figur 3. Grundläggande förändringsverb i några av språken i EuroWordNet
Ytterligare ett exempel på språkspecifik semantisk strukturering är det svenska verbet få som hör till de mest frekventa svenska verben och har rang 5 om man ordnar verben efter fallande frekvens. Få har både en grundbetydelse som är tämligen språkspecifik i den meningen att den saknar en direkt ekvivalent i många andra språk och ett polysemimönster som uppvisar många språkspecifika drag (fast med vissa paralleller i andra språk på ett mer allmänt plan. Se Viberg 2002 för en detaljerad analys.) Den närmaste ekvivalenten på engelska är get men verbet get kan till skillnad från få ta ett agentivt subjekt. I svenskan är den närmaste motsvarigheten till get i detta fall skaffa sig som i följande autentiska exempel från en översättning av en engelsk originalroman: Why don't we get a microwave? DL Varför skaffar vi oss inte en mikrovågsugn? Med utgångspunkt i semantiska komponenter skulle grundbetydelsen hos get kunna representeras något i stil med följande, där (ii) är optionell: (i) (ii) HAPPEN(POSSESS(x,y)) ACT(x,S) & CAUSE(S, (i)) Grundbetydelsen hos svenskans få ( Pelle fick en ny cykel ) har enbart (i) medan skaffa (sig) obligatoriskt kombinerar (i) och (ii) ( Pelle skaffade (sig) en ny cykel ). I ordnäten utnyttjas i första hand de grundläggande semantiska relationer som anges i figur 1 för att beskriva betydelsestrukturen. I figur 4 visas schematiskt hur kontrasten mellan svenskans få och skaffa sig kan relateras till sina närmaste motsvarigheter i engelskan. Jag har utgått från analysen i WordNet1.5. De synset som utgör basbegrepp anges med fetstil och kursivering. Överst i figuren står det basbegrepp som i EuroWordNet benämns acquire3 och har följande definition: "come into the possession of something concrete or abstract; She got a lot of paintings from her uncle"; "They acquired a new pet"; "Get your results the next day". (I WordNet 1.7.1 motsvaras acquire3 av <get1, acquire1> vilket bättre tar hänsyn till hur central denna betydelse är.) Som framgår av exemplen täcker acquire3 både betydelsen hos få1 ( Hon fick en massa tavlor ) och skaffa sig ( De skaffade (sig) ett nytt husdjur ). Acquire3 är en tvärspråklig hyperonym (EQ hyperonym) till få1 och skaffa sig medan t ex come by1 och komma över är tvärspråkliga synonymer (EQ synonyms).
acquire3 come by1 receive9, have15 earn1, make26, gain10 buy3, purchase3, take25 take29, have16, accept8 få1 skaffa1, skaffa sig1 ta emot1 komma över1 tjäna1 köpa1 stjäla1 (språkintern) hyponymi tvärspråklig hyponymi tvärspråklig synonymi Definitioner: come by1: obtain, esp. accidentally receive9,have15: get something ; come into possession of earn1, make26, gain10: earn on business transaction;as salary or wages take29, have16, accept8: receive willingly sth. given or offered buy3, purchase3, take25 (ingen ytterligare definition ges) Figur 4. Tvärspråkliga semantiska relationer Princeton WordNet var det första mer omfattande semantiska lexikonet på dator och är fortfarande det enda fullskaliga semantiska lexikonet. Den senaste versionen (1.7.1) innehåller närmare 150 000 ord. De olika versionerna av EuroWordnet är betydligt mindre men täcker ändå grundläggande substantiv och verb. Två andra typer av semantiska lexikon är under utveckling. Det ena är FrameNet som bygger på Charles Fillmores Frame semantics och analyserar argumentstrukturen hos verb och nominaliseringar med utgångspunkt från frame elements som är en form av domänspecifika djupkasusroller. Det andra är SIMPLE som i stor utsträckning bygger på James Pustejovskys generativa lexikon, vilket spelar en viktig roll även för de fyra huvudgrupperna av primära begrepp som urskiljs i analysen av toppbegrepp inom EuroWordNet fast med
andra namn på de fyra typerna av qualiastrukturer. (Utförlig information om FrameNet och SIMPLE återfinns på projektens hemsidor. Se Webadresser i litteraturförteckningen nedan.) Utvecklingen inom området semantiska lexikon är för närvarande mycket dynamisk. Svenskt OrdNät har en struktur som gör att det via det mellanspråkliga indexet kan kopplas till de många andra ordnät som är tillgängliga från ELRA i EuroWordNet-format. Detta gör att det kan användas som en basresurs för att utveckla andra former av semantiska lexikon för svenskan. Samtidigt utgör ordnäten naturligtvis bara ett första steg i riktning mot mer sofistikerade semantiska lexikon som på ett mer insiktsfullt sätt förmår att representera t ex polysemimönster. Utvecklingen har just börjat. Det mesta återstår att lösa i den vilda jakten på betydelsen. Litteratur Fellbaum, C. (ed.), 1998. WordNet. An Electronical Lexical Database. Cambridge/Mass.: The MIT Press. Lindvall, A. (ms. 2002). Verb som uttrycker förändring - en modell. Lyons, J. 1977. Semantics I-II. Cambridge: Cambridge University Press. Viberg, Å., 1981. Studier i kontrastiv lexikologi. SSM Report 7-8. Inst f lingvistik, Stockholms universitet. ---1996. Crosslinguistic lexicology. The case of English go and Swedish gå. I: K. Aijmer, B. Altenberg & M. Johansson (eds.), Languages in contrast. Papers from a Symposium on Text-based Cross-linguistic Studies. [Lund Studies in English 88.] Lund: Lund University Press. Sid. 151-182. --- 2000. Svenskt OrdNät - Lexikon på dator som modell för ordförrådet i hjärnan hos infödda talare och andraspråkstalare. I: H. Åhl (red.), Svenskan i tiden - verklighet och visioner. Stockholm: HLS Förlag. Sid. 287-305 --- 2002. Polysemy and disambiguation cues across languages. The case of Swedish få and English get. I: B. Altenberg & S. Granger (eds.), Lexis in contrast. Amsterdam: Benjamins. Sid. 119-150. Viberg, Å., Lindmark, K., Lindvall, A. & Mellenius, I. 2002. The Swedish WordNet Project. I: Proceedings of Euralex 2002. Copenhagen University. Sid. 407-412. Vossen, P. (ed.), 1999. EuroWordNet: a multilingual database with lexical semantic networks for European languages. Dordrecht: Kluwer.
Webadresser: (Princeton) WordNet nås på följande adress: http://www.cogsci.princeton.edu/~wn/ EuroWordNet nås idag via hemsidan för Global WordNet Association: http://www.globalwordnet.org/ FrameNet och SIMPLE nås på följande adresser: http://www.icsi.berkeley.edu/~framenet/ respektive: http://www.ub.es/gilcub/simple/simple.html