729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp



Relevanta dokument
TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg

Semantiska relationer. Hanna Seppälä Uppsala universitet 1

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Semantik. Semantik och språkteknologi

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Semantik och pragmatik

TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys. Marco Kuhlmann Institutionen för datavetenskap

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Kommunikation. Språk och språkteknologier. Semiotik. Kommunikationsmodell. Saussures strukturalism. Finns betydelse? Teckenkod.

2D1418, språkteknologi. Vad är WordNet? Hans Eriksson december Datorpost personnummer:

Vad är semantik? LITE OM SEMANTIK I DATORLINGVISTIKEN. Språkteknologi semantik. Frågesbesvarande

Kort presentation av Korp, Sveriges nationalkorpus

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Cinahl Headings. Sökguide. Sökning med kontrollerade ämnesord

Språkteknologi och Open Source

Svensk nationell datatjänst, SND BAS Online

Word sense disambiguation med Svenskt OrdNät

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Betydelse och betydelse

Grammatik för språkteknologer

Terminologins terminologi: begreppsdiagrammen

Kursplaneöversättaren. Lina Stadell

Datorbaserade verktyg i humanistisk forskning

Svensk nationell datatjänst, SND BAS Online

Semantik och pragmatik

Partiell parsning Parsning som sökning

Karp. Övningar Språkbankens höstworkshop oktober 2016

Storlek Pris Antal frukter 4 kg 185: kg 262: kg 379: kg 459:

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Schema för semantikdelen i kognitionsvetenskap, ht 2008

Språkteknologi. Språkteknologi

Inlämningsuppgift: Pronomenidentifierare

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Kritiskt tänkande HTXF04:3 FTEB05. Grundläggande semantik II

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013

Evidensbaserad informationssökning

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Word- sense disambiguation

Cinahl sökguide. Enkel sökning. Ämnesordsökning

Grundläggande textanalys. Joakim Nivre

BLOCK 1. 1A. Att komma igång

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Föreläsning 7 HT-2013

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

PubMed lathund Örebro universitetsbibliotek Medicinska biblioteket.

Internet. En enkel introduktion. Innehåll:

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Lingvistiskt uppmärkt text

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Språk, datorer och textbehandling

729G09 Språkvetenskaplig databehandling

Publicera material i Blackboard

Semantik och pragmatik (1) Inledning. Lexikal semantik. Mats Dahllöf Institutionen för lingvistik och filologi Mars / 55

2D1418, Språkteknologi

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Åke Viberg. 1. WordNet

TDDC74 Programmering: Abstraktion och modellering Dugga 2, Tid: kl 08-10, Datum:

Semantik och pragmatik (serie 5)

Söka artiklar i CSA-databaser Handledning

Semantik och pragmatik

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Så här använder du termbanken

Korpussökning och korpusmått 1(44)

Arbetsdokument Nationella riktlinjer för rörelseorganens sjukdomar

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Statistisk grammatikgranskning

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Semantik och pragmatik

Komma igång med 3L Pro Komma igång med 3L. Copyright VITEC FASTIGHETSSYSTEM AB

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Semantik och pragmatik

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Föreläsning 1. Grundläggande begrepp

Grammatik för språkteknologer

Tentamen i Grundläggande programmering STS, åk 1 lördag

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Kognitiv semantik. Hanna Seppälä Uppsala universitet 1

Möt svenskan. serien. Möt svenskan är avsedd för nyanlända ungdomar på högstadiet och språkintroduktion. Innehåller utdrag från alla tre böckerna!

Semantik och pragmatik

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Tekniker för storskalig parsning

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Skriv ditt sökord i sökrutan och markera rutan för att föreslå ämnesord (Suggest Subject Terms).

Flera nivåer i språkets uppbyggnad

Datorlingvistisk grammatik

Biblioteken, Futurum 2017

Kom igång. Readyonet Lathund för enkelt admin. Logga in Skriv in adressen till din webbsida följt av /login. Exempel:

balja ett stort kärl av metall eller plast som man t.ex. diskar eller tvättar i bank ett företag där man t.ex. kan låna pengar eller spara pengar

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

SORSELE KOMMUN. Handbok OEW. 28 sept 2012 Mari-Anne Englund Barbro Olofsson. Sorsele kommun Version , rev (19)

PubMed (Medline) Fritextsökning

Transkript:

729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer i text Ordbetydelsebestämning Kontextindikatorer Beslutslistor Löpord, graford, token sträng av alfanumeriska tecken i löpande text Lemma formell enhet som representerar ett antal böjningsformer enligt ett visst böjningsparadigm. Jmf. uppslagsord i ett lexikon. Ordform löpord (eller typord) sett som en böjningsform av ett lemma Lexem ett lemma kopplat till en specifik betydelse Språkteknologi (Lars Ahrenberg) 09-02-04 1 Språkteknologi (Lars Ahrenberg) 09-02-04 2 Olika ordbegrepp Vad är ordbetydelse (1) Ordformer Lemman Betydelser fil filar filer fil-1 fil-2 fila-1 FIL_1 (verktyg) FIL_2 (vägbana) FIL_3 (datafil) FIL_4 (filmjölk) FILA_1 (bearbeta) Skillnad innehållsord funktionsord Den semiotiska triangeln (för innehållsord): ord begrepp företeelser (utanför språket) Språkteknologi (Lars Ahrenberg) 09-02-04 3 Språkteknologi (Lars Ahrenberg) 09-02-04 4 Vad är ordbetydelse (2) Ett lexikonutdrag (källa: Svensk Ordbok) Teoretiska svar: extension (mänder av företeelser) begrepp, intension, denotation + konnotation, Praktiskt svar: det som i ett (stort) lexikon är definierat som en betydelse, t.ex. Nationalencyklopedins ordbok, Wordnet, stryka, v. 1 föra handflatan längs med någonting (a) med användning av andra kroppsdelar, (b) i syfte att avlägsna ngt (c) i syfte att föra samman något 2 belägga en yta med färg eller annat mjukt ämne 3 släta ut tyg med hett strykjärn 4 dra streck med penna i anslutning till ngt skrivet (a) som markering, (b) för att ta bort ngt (c) bildligt utesluta, ta bort 5 hala ned flagga 6 förflytta sig smygande eller dold Språkteknologi (Lars Ahrenberg) 09-02-04 5 Språkteknologi (Lars Ahrenberg) 09-02-04 6

Semantiska relationer mellan lexem Semantiska relationer mellan lexem synonymi strikt synonymi (utbytbarhet i alla kontexter) extensionellt överlapp (WordNet: synsets) pojke, kille, grabb, gosse,... flertydighet / ambiguitet homonymi/homografi (samma form, helt olika betydelse) kurs; fil;... polysemi (samma form, olika men relaterade betydelser) fot; grön; stryka;... hyponymi / hyperonymi semantisk under- resp. överordning häst är hyponym till däggdjur som är hyponym till djur del- helhetsrelationer knä är meronym till ben som är meronym till kropp motsatser (antonymi) stor ~ liten; död ~ levande; höger ~ vänster,... Språkteknologi (Lars Ahrenberg) 09-02-04 7 Språkteknologi (Lars Ahrenberg) 09-02-04 8 Semantiskt strukturerade lexikon Sökning i WordNet 3.0 Ordnät omfattar lexem, hierarkiska och icke-hierarkiska relationer och aspirerar på att täcka ett helt språk, Exempel: WordNet Tesaurus grupperar ord efter ämnesområden och/eller verksamheter, t.ex. sport, matlagning,... Exempel: Rogets Taxonomi / Kontrollerad vokabulär en hierarki av (validerade) termer, ofta för ett bestämt ämnesområde. Exempel: MeSH Terminologi begreppsbaserad taxonomi som innehåller definitioner av begreppen Ontologi formaliserad, begreppsbaserad struktur Språkteknologi (Lars Ahrenberg) 09-02-04 9 Språkteknologi (Lars Ahrenberg) 09-02-04 10 Information (delar) om ordet course i WordNet SALDO en resurs för svenska Sense 1 (education imparted in a series of lessons or meetings) course of study, course of instruction, class, education, instruction, teaching,... Synset Sense 2 (a connected series of events or actions or developments) line series Hypernyms Sense 3...... Språkteknologi (Lars Ahrenberg) 09-02-04 11 Språkteknologi (Lars Ahrenberg) 09-02-04 12

MesH Medical Subject Headings MeSH Medical Subject Headings MeSH är en kontrollerad vokabulär av ämnesord som stöder sökning i artikeldatabasen Medline. Exempel: Body regions [A01]... Back Lumbosacral Region Sacrococcygeal Region...... Språkteknologi (Lars Ahrenberg) 09-02-04 13 Språkteknologi (Lars Ahrenberg) 09-02-04 14 Användning av ordnät/taxonomier Hitta semantiska relationer i text Informationssökning Expansion av sökfrågor mha synonymer, över- och underordnade begrepp Tvärspråklig informationssökning Textförståelse Frågebesvarande system Vilka frukter innehåller mest vitaminer? Diskursrelationer Bilen startade inte. Det kom bara ett svagt surr från motorn. Jmf. *Det kom bara ett svagt surr från humlan. Vissa satsmönster uttrycker typiskt vissa semantiska relationer. Dessa kan användas för att bygga ut ordnät: Ett exklusivare fruktfat som förutom originalfrukterna innehåller en mix av säsongens lyxigare frukt så som kiwi, physsalis, rambutan, bigaråer, sharon, mango, jordgubbar, papaya ect. Smoothie - Allt du behöver är en mixer, yoggi citron, och frukter typ nektarin eller melon, och bär i mängder... Språkteknologi (Lars Ahrenberg) 09-02-04 15 Språkteknologi (Lars Ahrenberg) 09-02-04 16 Betydelsebestämning Betydelsebestämning Betydelsebestämning innebär att bestämma en ordförekomsts betydelse i en given kontext. Exempel: Du stryker dig från sändlistan genom ett tomt mail till: leave-dagens@nyheter.skolporten.com Sampelbaserad betydelsebestämning ett stort antal förekomster av ett fåtal ord har märkts upp med avseende på sin betydelse i olika meningskontexter. Dessa delas upp i träningsdata och testdata. Uppgiften är att utforma ett ordbetydelsesystem som presterar så bra som möjligt på testdata Exempel: <s id= 36 sense= stryka-6 >Det visade sig alltså att det inte bara är en utan minst två, kanske tre vargar som stryker omkring bland villorna här på området</s> Språkteknologi (Lars Ahrenberg) 09-02-04 17 Språkteknologi (Lars Ahrenberg) 09-02-04 18

Betydelsebestämning Prestandamätning av WSD-system Textbaserad betydelsebestämning: Alla förekomster av innehållsord i en mängd texter ska ges en korrekt betydelse. Som träningsmaterial ges ett lexikon med de betydelser som används. Korrekthet, dvs procent korrekt i jämförelse med ett facit. Jämförelse med ett baseline-system, ofta ett system skapat ur ett maskinläsbart system med hjälp av definitionerna i lexikonet. Språkteknologi (Lars Ahrenberg) 09-02-04 19 Språkteknologi (Lars Ahrenberg) 09-02-04 20 Ett lexikonutdrag (källa: Svensk Ordbok) Lexikonbaserad metod stryka, v. 1 föra handflatan längs med någonting (a) med användning av andra kroppsdelar, (b) i syfte att avlägsna ngt (c) i syfte att föra samman något 2 belägga en yta med färg eller annat mjukt ämne 3 släta ut tyg med hett strykjärn 4 dra streck med penna i anslutning till ngt skrivet (a) som markering, (b) för att ta bort ngt (c) bildligt utesluta, ta bort 5 hala ned flagga 6 förflytta sig smygande eller dold associera betydelser med ordmängder via lexikondefinitioner. Exempel: stryka 1 : {föra, handflata, längs, med} stryka 2 : {belägga, yta, med, färg, mjukt, ämne} stryka 6: {förflytta, sig, smygande, eller, dold } detta kan ev. göras i flera steg yta-1: yttersta skikt av något... yta-2: storlek som kan mätas i längd och bredd... Jämför dessa mängder med orden i ett fönster runt det ord som ska betydelsebestämmas och/eller motsvarande mängder för dessa ord. Språkteknologi (Lars Ahrenberg) 09-02-04 21 Språkteknologi (Lars Ahrenberg) 09-02-04 22 Lexikonbaserad metod (forts.) Hur stor kontext behövs? Välj den betydelse vars ordmängd har störst överlappning med mängderna för orden i fönstret. Exempel: stryker med den blå penseln... blå = som har samma färg som en klar himmel Förutsätter tillgång till ett lexikon med definitioner men kräver inte manuell uppmärkning av en korpus stryks då stryks fyra, då stryks fyra nollor Rumänien, då stryks fyra nollor från i Rumänien, då stryks fyra nollor från sedlarna Språkteknologi (Lars Ahrenberg) 09-02-04 23 Språkteknologi (Lars Ahrenberg) 09-02-04 24

Indikatorbaserad metod Indikatorbaserad metod Identifiera ett antal indikatorer (eng. features, dvs ord, lemman, ordklasser) för ordet som ska betydelsebestämmas Dessa kan ses som element i en vektor V = (v 1,, v n ); Uppskatta från träningsdata för varje betydelse s, p(v i s); Utjämnning är nödvändig för att uppskatta sannolikheter för indikatorer som ej setts i träningsdata. Givet en förekomst av ordet vars kontext svarar mot vektorn V, välj den betydelse s* som är mest sannolik i kontexten, dvs s* = argmax p(s V) = (enligt Bayes regel) s argmax p(s)p(v s) / p(v) = argmax p(s)p(v s) s s Språkteknologi (Lars Ahrenberg) 09-02-04 25 Språkteknologi (Lars Ahrenberg) 09-02-04 26 Indikatorbaserad metod Positionsbaserade indikatorer p(s) uppskattas med den relativa frekvensen i träningsdata, ev. med smoothing, och anger hur vanlig betydelsen s är a priori p(v s) uppskattas med produkten p(v i s). 1i n OBS! Detta innebär ett antagande om oberoende som inte är korrekt. Smoothing är nödvändigt vid uppskattning av p(v i s). Det är också vanligt att överföra allt till log-skala för att inte få för små tal vid beräkning av p(v s) (OBS! boken använder collocation i stället för position.) Idé: den lokala kontexten ger tillräcklig information, t.ex. i form av ord och ordklass för de två närmaste orden till höger och vänster om ordet vars betydelse ska bestämmas. Exempel:... vargar som stryker omkring bland... <vargar, NN, som, RELPRO, omkring, ADV, bland, PREP> Språkteknologi (Lars Ahrenberg) 09-02-04 27 Språkteknologi (Lars Ahrenberg) 09-02-04 28 Indikatorer baserade på fönster Beslutslistor Orden i ett fönster på ca 20 positioner runt om fokusordet noteras och jämförs med de ord som hittats i träningsdata i samma fönster. Varje ord är en indikator. En kontext representeras då som en vektor med 1:or och 0:or där 1 noteras om ordet finns i kontexten. I stället för att låta indikatorerna vägas ihop kan de ordnas i beslutslistor Första indikatorn som ger utslag avgör. Exempel: stryka omkring stryka 6 bort i litet fönster stryka 1b <klädesplagg> i stort fönster stryka 3 omkring i litet fönster stryka 6 etc. Språkteknologi (Lars Ahrenberg) 09-02-04 29 Språkteknologi (Lars Ahrenberg) 09-02-04 30

Betydelsebestämning vs ordklasstaggning Vad skiljer dessa två problem åt? Antal kategorier per ord? Antal kategorier totalt? Storleken på nödvändig kontext? Svårighetsgrad? Språkteknologi (Lars Ahrenberg) 09-02-04 31