729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer i text Ordbetydelsebestämning Kontextindikatorer Beslutslistor Löpord, graford, token sträng av alfanumeriska tecken i löpande text Lemma formell enhet som representerar ett antal böjningsformer enligt ett visst böjningsparadigm. Jmf. uppslagsord i ett lexikon. Ordform löpord (eller typord) sett som en böjningsform av ett lemma Lexem ett lemma kopplat till en specifik betydelse Språkteknologi (Lars Ahrenberg) 09-02-04 1 Språkteknologi (Lars Ahrenberg) 09-02-04 2 Olika ordbegrepp Vad är ordbetydelse (1) Ordformer Lemman Betydelser fil filar filer fil-1 fil-2 fila-1 FIL_1 (verktyg) FIL_2 (vägbana) FIL_3 (datafil) FIL_4 (filmjölk) FILA_1 (bearbeta) Skillnad innehållsord funktionsord Den semiotiska triangeln (för innehållsord): ord begrepp företeelser (utanför språket) Språkteknologi (Lars Ahrenberg) 09-02-04 3 Språkteknologi (Lars Ahrenberg) 09-02-04 4 Vad är ordbetydelse (2) Ett lexikonutdrag (källa: Svensk Ordbok) Teoretiska svar: extension (mänder av företeelser) begrepp, intension, denotation + konnotation, Praktiskt svar: det som i ett (stort) lexikon är definierat som en betydelse, t.ex. Nationalencyklopedins ordbok, Wordnet, stryka, v. 1 föra handflatan längs med någonting (a) med användning av andra kroppsdelar, (b) i syfte att avlägsna ngt (c) i syfte att föra samman något 2 belägga en yta med färg eller annat mjukt ämne 3 släta ut tyg med hett strykjärn 4 dra streck med penna i anslutning till ngt skrivet (a) som markering, (b) för att ta bort ngt (c) bildligt utesluta, ta bort 5 hala ned flagga 6 förflytta sig smygande eller dold Språkteknologi (Lars Ahrenberg) 09-02-04 5 Språkteknologi (Lars Ahrenberg) 09-02-04 6
Semantiska relationer mellan lexem Semantiska relationer mellan lexem synonymi strikt synonymi (utbytbarhet i alla kontexter) extensionellt överlapp (WordNet: synsets) pojke, kille, grabb, gosse,... flertydighet / ambiguitet homonymi/homografi (samma form, helt olika betydelse) kurs; fil;... polysemi (samma form, olika men relaterade betydelser) fot; grön; stryka;... hyponymi / hyperonymi semantisk under- resp. överordning häst är hyponym till däggdjur som är hyponym till djur del- helhetsrelationer knä är meronym till ben som är meronym till kropp motsatser (antonymi) stor ~ liten; död ~ levande; höger ~ vänster,... Språkteknologi (Lars Ahrenberg) 09-02-04 7 Språkteknologi (Lars Ahrenberg) 09-02-04 8 Semantiskt strukturerade lexikon Sökning i WordNet 3.0 Ordnät omfattar lexem, hierarkiska och icke-hierarkiska relationer och aspirerar på att täcka ett helt språk, Exempel: WordNet Tesaurus grupperar ord efter ämnesområden och/eller verksamheter, t.ex. sport, matlagning,... Exempel: Rogets Taxonomi / Kontrollerad vokabulär en hierarki av (validerade) termer, ofta för ett bestämt ämnesområde. Exempel: MeSH Terminologi begreppsbaserad taxonomi som innehåller definitioner av begreppen Ontologi formaliserad, begreppsbaserad struktur Språkteknologi (Lars Ahrenberg) 09-02-04 9 Språkteknologi (Lars Ahrenberg) 09-02-04 10 Information (delar) om ordet course i WordNet SALDO en resurs för svenska Sense 1 (education imparted in a series of lessons or meetings) course of study, course of instruction, class, education, instruction, teaching,... Synset Sense 2 (a connected series of events or actions or developments) line series Hypernyms Sense 3...... Språkteknologi (Lars Ahrenberg) 09-02-04 11 Språkteknologi (Lars Ahrenberg) 09-02-04 12
MesH Medical Subject Headings MeSH Medical Subject Headings MeSH är en kontrollerad vokabulär av ämnesord som stöder sökning i artikeldatabasen Medline. Exempel: Body regions [A01]... Back Lumbosacral Region Sacrococcygeal Region...... Språkteknologi (Lars Ahrenberg) 09-02-04 13 Språkteknologi (Lars Ahrenberg) 09-02-04 14 Användning av ordnät/taxonomier Hitta semantiska relationer i text Informationssökning Expansion av sökfrågor mha synonymer, över- och underordnade begrepp Tvärspråklig informationssökning Textförståelse Frågebesvarande system Vilka frukter innehåller mest vitaminer? Diskursrelationer Bilen startade inte. Det kom bara ett svagt surr från motorn. Jmf. *Det kom bara ett svagt surr från humlan. Vissa satsmönster uttrycker typiskt vissa semantiska relationer. Dessa kan användas för att bygga ut ordnät: Ett exklusivare fruktfat som förutom originalfrukterna innehåller en mix av säsongens lyxigare frukt så som kiwi, physsalis, rambutan, bigaråer, sharon, mango, jordgubbar, papaya ect. Smoothie - Allt du behöver är en mixer, yoggi citron, och frukter typ nektarin eller melon, och bär i mängder... Språkteknologi (Lars Ahrenberg) 09-02-04 15 Språkteknologi (Lars Ahrenberg) 09-02-04 16 Betydelsebestämning Betydelsebestämning Betydelsebestämning innebär att bestämma en ordförekomsts betydelse i en given kontext. Exempel: Du stryker dig från sändlistan genom ett tomt mail till: leave-dagens@nyheter.skolporten.com Sampelbaserad betydelsebestämning ett stort antal förekomster av ett fåtal ord har märkts upp med avseende på sin betydelse i olika meningskontexter. Dessa delas upp i träningsdata och testdata. Uppgiften är att utforma ett ordbetydelsesystem som presterar så bra som möjligt på testdata Exempel: <s id= 36 sense= stryka-6 >Det visade sig alltså att det inte bara är en utan minst två, kanske tre vargar som stryker omkring bland villorna här på området</s> Språkteknologi (Lars Ahrenberg) 09-02-04 17 Språkteknologi (Lars Ahrenberg) 09-02-04 18
Betydelsebestämning Prestandamätning av WSD-system Textbaserad betydelsebestämning: Alla förekomster av innehållsord i en mängd texter ska ges en korrekt betydelse. Som träningsmaterial ges ett lexikon med de betydelser som används. Korrekthet, dvs procent korrekt i jämförelse med ett facit. Jämförelse med ett baseline-system, ofta ett system skapat ur ett maskinläsbart system med hjälp av definitionerna i lexikonet. Språkteknologi (Lars Ahrenberg) 09-02-04 19 Språkteknologi (Lars Ahrenberg) 09-02-04 20 Ett lexikonutdrag (källa: Svensk Ordbok) Lexikonbaserad metod stryka, v. 1 föra handflatan längs med någonting (a) med användning av andra kroppsdelar, (b) i syfte att avlägsna ngt (c) i syfte att föra samman något 2 belägga en yta med färg eller annat mjukt ämne 3 släta ut tyg med hett strykjärn 4 dra streck med penna i anslutning till ngt skrivet (a) som markering, (b) för att ta bort ngt (c) bildligt utesluta, ta bort 5 hala ned flagga 6 förflytta sig smygande eller dold associera betydelser med ordmängder via lexikondefinitioner. Exempel: stryka 1 : {föra, handflata, längs, med} stryka 2 : {belägga, yta, med, färg, mjukt, ämne} stryka 6: {förflytta, sig, smygande, eller, dold } detta kan ev. göras i flera steg yta-1: yttersta skikt av något... yta-2: storlek som kan mätas i längd och bredd... Jämför dessa mängder med orden i ett fönster runt det ord som ska betydelsebestämmas och/eller motsvarande mängder för dessa ord. Språkteknologi (Lars Ahrenberg) 09-02-04 21 Språkteknologi (Lars Ahrenberg) 09-02-04 22 Lexikonbaserad metod (forts.) Hur stor kontext behövs? Välj den betydelse vars ordmängd har störst överlappning med mängderna för orden i fönstret. Exempel: stryker med den blå penseln... blå = som har samma färg som en klar himmel Förutsätter tillgång till ett lexikon med definitioner men kräver inte manuell uppmärkning av en korpus stryks då stryks fyra, då stryks fyra nollor Rumänien, då stryks fyra nollor från i Rumänien, då stryks fyra nollor från sedlarna Språkteknologi (Lars Ahrenberg) 09-02-04 23 Språkteknologi (Lars Ahrenberg) 09-02-04 24
Indikatorbaserad metod Indikatorbaserad metod Identifiera ett antal indikatorer (eng. features, dvs ord, lemman, ordklasser) för ordet som ska betydelsebestämmas Dessa kan ses som element i en vektor V = (v 1,, v n ); Uppskatta från träningsdata för varje betydelse s, p(v i s); Utjämnning är nödvändig för att uppskatta sannolikheter för indikatorer som ej setts i träningsdata. Givet en förekomst av ordet vars kontext svarar mot vektorn V, välj den betydelse s* som är mest sannolik i kontexten, dvs s* = argmax p(s V) = (enligt Bayes regel) s argmax p(s)p(v s) / p(v) = argmax p(s)p(v s) s s Språkteknologi (Lars Ahrenberg) 09-02-04 25 Språkteknologi (Lars Ahrenberg) 09-02-04 26 Indikatorbaserad metod Positionsbaserade indikatorer p(s) uppskattas med den relativa frekvensen i träningsdata, ev. med smoothing, och anger hur vanlig betydelsen s är a priori p(v s) uppskattas med produkten p(v i s). 1i n OBS! Detta innebär ett antagande om oberoende som inte är korrekt. Smoothing är nödvändigt vid uppskattning av p(v i s). Det är också vanligt att överföra allt till log-skala för att inte få för små tal vid beräkning av p(v s) (OBS! boken använder collocation i stället för position.) Idé: den lokala kontexten ger tillräcklig information, t.ex. i form av ord och ordklass för de två närmaste orden till höger och vänster om ordet vars betydelse ska bestämmas. Exempel:... vargar som stryker omkring bland... <vargar, NN, som, RELPRO, omkring, ADV, bland, PREP> Språkteknologi (Lars Ahrenberg) 09-02-04 27 Språkteknologi (Lars Ahrenberg) 09-02-04 28 Indikatorer baserade på fönster Beslutslistor Orden i ett fönster på ca 20 positioner runt om fokusordet noteras och jämförs med de ord som hittats i träningsdata i samma fönster. Varje ord är en indikator. En kontext representeras då som en vektor med 1:or och 0:or där 1 noteras om ordet finns i kontexten. I stället för att låta indikatorerna vägas ihop kan de ordnas i beslutslistor Första indikatorn som ger utslag avgör. Exempel: stryka omkring stryka 6 bort i litet fönster stryka 1b <klädesplagg> i stort fönster stryka 3 omkring i litet fönster stryka 6 etc. Språkteknologi (Lars Ahrenberg) 09-02-04 29 Språkteknologi (Lars Ahrenberg) 09-02-04 30
Betydelsebestämning vs ordklasstaggning Vad skiljer dessa två problem åt? Antal kategorier per ord? Antal kategorier totalt? Storleken på nödvändig kontext? Svårighetsgrad? Språkteknologi (Lars Ahrenberg) 09-02-04 31