Maskininlärningsbaserad koreferensbestämning för nominalfraser applicerat på svenska texter

Storlek: px
Starta visningen från sidan:

Download "Maskininlärningsbaserad koreferensbestämning för nominalfraser applicerat på svenska texter"

Transkript

1 Masknnlärnngsbaserad koreferensbestämnng för nomnalfraser applcerat på svenska texter Magnus Danelsson Examensarbete för 0 p, Insttutonen för datavetenskap, Naturvetenskaplga fakulteten, Lunds unverstet Thess for a dploma n computer scence, 0 credt ponts, Department of Computer Scence, Faculty of Scence, Lund Unversty

2 Masknnlärnngsbaserad koreferensbestämnng för nomnalfraser applcerat på svenska texter Sammanfattnng Denna examensrapport beskrver utvecklandet av en modul för masknnlärnngsbaserad koreferensbestämnng för nomnalfraser. Modulen är en ntegrerad del Carsm. Carsm är ett program för att omvandla texter på naturlgt språk som beskrver en trafkolycka tll en tredmensonell smulerng av olyckan. Koreferensmodulen används Carsm för att detektera de objekt som skall framträda smulerngen. Den behandlar ofullständga nomnalfraser som nkluderar framförställda attrbut och huvudord. Efterställda attrbut saknas och endast en typ av nre nomnalfraser fnns defnerad. Modulen för koreferensbestämnng är baserat på arbetet av Soon et al. (00). I det arbetet används manuellt uppmärkta korpusar för att med hjälp av en beslutsträdsalgortm automatskt skapa en klassfcerare. I tllägg tll arbetet av Soon et al., som är ett domänoberoende system, har ett antal både domänberoende och domänoberoende egenskaper lagts tll. Jag har gjort två, mg veterlgen unka, utöknngar av Soons algortm. Dels används en kombnaton med ett flter med handkodade regler tllsammans med klassfceraren och dels används en konstrukton betecknad egenskapsöverförng. Egenskapsöverförng används för att kontnuerlgt ändra semantska egenskaper assocerade tll nomnalfraserna koreferenskedjorna tll ett mer specfkt värde under klustrngen. Utöknngarna, relatvt Soon et al., förbättrar resultaten markant. Så vtt jag vet är detta det första helautomatska systemet för koreferensbestämnng avsett för svenska texter. Jag tror att koreferensmodulen relatvt enkelt kan konverteras tll norska eller danska på grund av stora lkheter mellan de skandnavska språken. Machne learnng based coreference resoluton of noun phrases appled on Swedsh texts Abstract Ths master s thess descrbes the development of a module for coreference resoluton of noun phrases usng a machne learnng based approach. The module s an ntegrated part of Carsm. Carsm s a program that converts natural language texts descrbng a car accdent nto a 3Dsmulaton of the accdent. The coreference module s used n Carsm to detect the objects to appear n the smulaton. It consders partal noun phrases from the determner to the headword. Post-modfers are set asde and only one knd of nner noun phrases s defned. The module for coreference resoluton s based on the work by Soon et al (00). It automatcally nduces a classfer wth manually tagged corpora usng a decson tree algorthm. In addton to the work by Soon et al., a doman ndependent system, a number of both doman dependent and doman ndependent features have been added. I have enhanced Soon's algorthm wth two extensons, whch are to my knowledge orgnal. Frstly, a flter wth handcoded rules s used together wth the classfer. Secondly, a constructon called feature transfer s mplemented. Feature transfer s used to contnuously change the values of semantc noun phrase features n the coreference chans durng clusterng. The extensons from Soon et al. mprove the results dramatcally. As far as I know ths s the frst fully automatc system for coreference resoluton for Swedsh texts. I beleve the coreference module should be easly portable to Norwegan or Dansh because of great smlartes between the Scandnavan languages.

3 Förord Ett stort tack tll mn handledare Perre Nugues för att ha ntroducerat mg tll ett ntressant ämne och för den td, det engagemang och den konstruktva krtk jag fått. Jag vll också tacka Rchard Johansson för all hjälp och det ntresse han vsat. Magnus Danelsson Lund, Januar 005

4

5 Innehållsförtecknng Inlednng.... Bakgrund.... Syfte....3 Metod... Koreferensbestämnng för nomnalfraser Nomnalfraser Koreferensbestämnng Applkatoner för koreferensbestämnng Masknell koreferensbestämnng En genersk algortm för koreferensbestämnng Relaterade arbeten Implementerng av koreferensbestämnng Indata Uppmärknngsbara element Karaktärserng av uppmärknngsbara element - elementattrbut Egenskapsvektor Fltrerng Klassfcerare Klustrngsalgortm genererng av koreferenskedjor Portabltet Utvecklngsmetodolog Utvärderng av koreferensbestämnng Metod för utvärderng av koreferensbestämnng Utvärderng av koreferensbestämnng Fel och felkällor Integraton Carsm Carsm Implementerng av referensbestämnng Utvärderng Framtda arbete Möjlga förbättrngar Möjlga utöknngar Slutsatser Arbetet Resultat Fortsatta undersöknngar Referenser A Utvärderngsmetoder A. Utvärderng av koreferens A. Utvärderng för referensbestämnng B Ordlsta... 56

6 Fgurer Fgur. Tre korefererande nomnalfraser har en gemensam referent... 4 Fgur. Exempeltext (Hansson 000) med koreferenskedjor. I det här exemplet vsas de korefererande nomnalfraserna som de extraheras det här arbetet, utan efterställda attrbut Fgur.3 Genersk algortm för koreferens och anaforabestämnng... 8 Fgur 3. Uppmärkta nomnalfraser enlgt reglerna för uppmärknngsbara element det här arbetet. Huvudord fetstl... 4 Fgur 3. Den semantska klassherarkn Fgur 3.3 Delmängd av ett beslutsträd en javalk struktur. Varje ntern nod svarar mot ett attrbut egenskapsvektorn och varje löv svarar JA eller NEJ på frågan om koreferens för det antecedent-anaforpar som testas... 0 Fgur 3.4 Applkaton för koreferensbestämnng. Ett beslutsträd har applcerats på en text och koreferenskedjorna syns som mängder av olkfärgade nomnalfraser. Utvärderngsresultat jämfört med ett sparat, manuellt uppmärkt, dokument vsas. Elementattrbut för den senast klckade nomnalfrasen vsas. Texten kommer ursprunglgen från Tagesson (00) Fgur 4. Exempel (Tagesson 00) på uppmärkta koreferenskedjor ett XML-dokument..6 Fgur 4. Fördelnng av antal ord på de 50 texterna som används för utvärderngen... 7 Fgur 4.3 Delmängd av det slutgltgt genererade beslutsträdet Fgur 4.4 F-värde för utvärderng med klassfcerare tränad med olka antal tränngsdokument, med och utan fltrerng Fgur 4.5 Exempeltext (Hansson 000) med korrekta och genererade koreferenskedjor Fgur 5. Schematsk överskt över modulerna Carsm Fgur 5. Exempel på formell beskrvnng av en text med tllhörande scenobjekt, vägobjekt och händelser samt den av Carsm genererade 3D-smulerngen Fgur 5.3 Delmängd av ontologn som används Carsm Fgur 5.4 En text (Tagesson 00) med koreferenskedjor och ontologreferenser Fgur A. Exempel på key och response. Key består av fyra koreferenskedjor och response av fem. De har fyra länkar gemensamt Fgur A. Defnton av täcknng och precson... 53

7 Tabeller Tabell. Exempel på huvudord, framförställda och efterställda attrbut för nomnalfraser... 3 Tabell 3. Några taggar uppmärkta av Granska med tllhörande förklarngar... Tabell 3. Egenskapsvektor... 7 Tabell 3.3 Exempel på ordnngen elementen testas av klustrngsalgortmen. Först testas E3 - E för koreferens. E - E testas nte då E är ett nre element tll E... Tabell 4. Test med vart och ett av fltervllkoren borttagna Tabell 4. Tester med en egenskap borttagen från egenskapsvektorn med och utan fltrerng Tabell 4.3 Egenskapsöverförng Tabell 4.4 Egenskaper Soon et al. tllsammans med motsvarande egenskaper detta arbete Tabell 4.5 Effekten av egenskaperna samma antal objekt / samma numerus Tabell 4.6 Resultat av olka kombnatoner lexkalska egenskaper.... 3

8

9 KAPITEL Inlednng Inlednng. Bakgrund Carsm Carsm (Johansson et al. 004; Dupuy et al. 00) är ett system som, utfrån en text som beskrver en trafkolycka, genererar en tredmensonell smulerng av en olycksförloppet. Carsm består av två huvuddelar. Den första delen är ett system för nformatonsextraherng som utvnner språklg nformaton från en text. Informatonen sammanställs sedan en formell beskrvnng. Den andra delen använder beskrvnngen för att skapa en grafsk representaton av olyckan. För att skapa en smulerng dentferas tre typer av objekt från texten: scenobjekt, vägobjekt och händelser. Scenobjekt är statska objekt omgvnngen som nte drekt är nblandade olyckan, t.ex. väderförhållanden och vägtyper. Vägobjekt är de objekt som är nblandade olyckan. Dessa kan t.ex. vara blar, motorcyklar eller träd. Händelseobjekt omfattar de för smulerngen relevanta händelserna. Dessa kan t.ex. vara kollsoner eller omkörnngar. Vdare ordnas händelserna kronologsk ordnng. Vssa vägobjekt fnns omnämnda på flera ställen texten. För att få en korrekt smulerng är det vktgt att avgöra vlka fraser texten som representerar samma vägobjekt. Tll detta används en modul för koreferensbestämnng. Koreferensbestämnng Koreferensbestämnng för nomnalfraser är en process för att avgöra vlka nomnalfraser, som nämnts en text, som refererar tll samma enttet världen (Ng 00). Ett system för koreferensbestämnng måste både dentfera nomnalfraserna korrekt och extrahera tllräcklgt med relevant nformaton om nomnalfraserna för att kunna avgöra koreferens. Varje system använder någon form av modell för att avgöra vlka nomnalfraser som korefererar. Modellen kan baseras på logska regler eller statstska samband. Exsterande system för masknell koreferensbestämnng använder antngen kunskapsbaserade eller korpusbaserade metoder. En kunskapsbaserad metod använder ett antal regler som skapats för hand för att avgöra koreferens. För en korpusbaserad metod används en mängd texter, en korpus, med korrekt koreferens uppmärkt som utgångspunkt. Utfrån nformaton dessa annoterade texter skapas en modell som används för koreferensbestämnngen. Masknnlärnngsbaserad koreferensbestämnng är en korpusbaserad metod där modellen skapas automatskt från texterna med någon masknnlärnngsalgortm. Dagens system för koreferensbestämnng har dag långt kvar tll att uppnå resultat jämförbara med det en mänsklg annoterare kan prestera. Koreferensbestämnng anses vara ett av de absolut svåraste problemen nom artfcell ntellgens (Ng 00). Svårgheten lgger framförallt det faktum att det krävs detaljerad kunskap om världen vssa fall:

10 KAPITEL Inlednng Pälsen hängde över stolen. Den ser dyr ut, tänkte hon. I exemplet är det trvalt för en läsare att avgöra att pälsen och den refererar tll samma objekt. För dagens masknella koreferenssystem är det dock omöjlgt att med säkerhet avgöra att det nte är stolen som korefererar med den. I många andra fall kan dock koreferens med stor säkerhet avgöras utan detaljerad kunskap om världen. Starka ndkatorer på koreferens kan t.ex. var grammatska, lexkalska eller semantska lkheter mellan nomnalfraserna. Syfte Syftet med examensarbetet är att skapa en modul Carsm för koreferensbestämnng av nomnalfraser. Nomnalfraserna är nte fullständga. De nkluderar framförställda attrbut och huvudord men efterställda attrbut saknas. Dessutom fnns endast en typ av nre nomnalfraser defnerad. Indata tll modulen är svenska texter. En mndre deluppgft består att ntegrera resultatet Carsm. Tll detta används den utvecklade koreferensmodulen för att dentfera de nomnalfraser som representerar objekt som skall framträda smulerngen..3 Metod En utgångspunkt för koreferensmodulen är arbetet av Soon et al. (00). Metoden är masknnlärnngsbaserad, en beslutsträdsalgortm används för att avgöra koreferens. I tllägg tll metoderna Soon et al. används även en fltermodul med handkodade regler samt en konstrukton betecknad egenskapsöverförng.

11 KAPITEL Koreferensbestämnng för nomnalfraser 3 Koreferensbestämnng för nomnalfraser I detta kaptel förklaras grundläggande begrepp som används vd bestämnng av koreferens mellan nomnalfraser. Även applkatoner som kan dra nytta av koreferensbestämnng samt tdgare arbeten beskrvs.. Nomnalfraser Nomnalfras är den sammanfattande termen för konstruktoner som fungerar på samma sätt som ett ensamt substantv syntaktskt avseende. (Hultman 003, s. 04) En nomnalfras är uppbyggd krng ett huvudord, med eller utan bestämnngar (Hultman 003). Nomnalfrasens bestämnngar kallas attrbut och kan vara framförställda eller efterställda. Bestämnngarna ger ytterlgare nformaton om huvudordet. Hela nomnalfrasen kallas också maxmal nomnalfras och huvudordet ensamt för mnmal nomnalfras. Framförställda attrbut Huvudord Efterställda attrbut mannen blen Den vta blen som krockade med tåget Den vta Djurgårdens tränare Nklas Wkegård Mannens bl den stora gröna husblen parkerad mtt centrum den andra kvnnans Nssan Mcra den Den tredje Tabell. Exempel på huvudord, framförställda och efterställda attrbut för nomnalfraser. Varje nomnalfras har ett huvudord som är lka med den mnmala nomnalfrasen. I typfallet är huvudordet ett substantv: blen, den vta blen, blen därborta. Även andra typer av huvudord är möjlga, pronomen ( flera av dem, han ), adjektv ( den vta ), ordnngstal ( den tredje ) eller ett egennamn ( Drottnng Slva, en Volvo 740, Zlatan ). Huvudordet kan bestå av fler än ett ord då det är ett egennamn. Även eventuell ttel räknas här tll namnet. Framförställda attrbut kan bestå av ett eller flera ord. Närmast framför huvudordet står adjektvattrbut, adjektvfraser med eller utan bestämnngar ( en svart katt, stora starka svenska män ). Framför adjektvattrbuten står gentvattrbut och attrbut som hör tll pronomengruppen. Ett gentvattrbut är en nomnalfras som står gentv ( mannens nya bl ). Ett attrbut som tllhör pronomengruppen kan t.ex. vara: den blen, den här/där blen (demonstratva), vlken bl? (frågande) och samtlga de nblandade fordonen (kvanttatva). Efterställda attrbut kan ha en mängd olka konstruktoner. Ingen närmare beskrvnng av dessa ges då nomnalfraserna som behandlas det här arbetet nästan alltd saknar efterställda attrbut. I den fortsatta framställnng benämns nomnalfraser som är en del av en annan nomnalfras som nre nomnalfraser: I nomnalfrasen den andra kvnnans Nssan Mcra är den andra kvnnans en nre nomnalfras.

12 4 KAPITEL Koreferensbestämnng för nomnalfraser. Koreferensbestämnng I talat eller skrvet språk brukar nte samma nomnalfras upprepas exakt för att referera tll en enttet som ntroducerats tdgare konversatonen eller texten. Ofta ersätts den första representatonen av entteten med t.ex. ett pronomen eller kortform av nomnalfrasen. Exempelvs kan samma enttet ett dokument skrvas som Göran Persson, han, hans, Göran, Persson, statsmnstern eller Sverges statsmnster. Koreferensbestämnng för nomnalfraser är en process för att avgöra om två eller flera nomnalfraser hänför sg tll samma referent, att bestämma alla nomnalfraser som representerar ett vsst objekt världen (Ng 00).... motorcykeln träffades och den... fordonet... Referent Fgur. Tre korefererande nomnalfraser har en gemensam referent. Defnton av koreferens Koreferens mellan två nomnalfraser, N och N, defneras enlgt: N och N korefererar Referent(N) = Referent(N) (van Deemter & Kbble 000). För två korefererande nomnalfraser fnns en denttetsrelaton (MUC-7 997). Relatonen, betecknad IDENT, är en ekvvalensrelaton. Det nnebär att den är symmetrsk (N IDENT N N IDENT N), transtv (N IDENT N & N IDENT N3 N IDENT N3) och reflexv (N IDENT N för alla N). Dessa egenskaper nducerar ekvvalensklasser. Varje element varje relaton ngår exakt en ekvvalensklass och samtlga element en ekvvalensklass korefererar. En ekvvalensklass, eller koreferenskedja, t.ex. N - N - N3 - N4, skapas ur ett antal korefererande par av nomnalfraser, N - N, N - N3, N3 - N4. Varje koreferenskedja består av samtlga nomnalfraser som hänför sg tll en gemensam referent. Olyckan nträffade när en bl på väg nerför backen rktnng mot Jönköpng gjorde en tvär omkörnng. Föraren den framförvarande blen, en Mazda, tvngades göra en häftg undanmanöver och kom ut mötande körfält. I blen fanns tre personer. Blen kollderade med en Peugeot, med tre personer. Den omkörande blen försvann från olycksplatsen. Sent går kväll hade polsen nga spår efter den blen som smet. Koreferenskedjor: en bl Den omkörande blen den blen den framförvarande blen en Mazda blen Blen Fgur. Exempeltext (Hansson 000) med koreferenskedjor. I det här exemplet vsas de korefererande nomnalfraserna som de extraheras det här arbetet, utan efterställda attrbut.

13 KAPITEL Koreferensbestämnng för nomnalfraser 5 Bestämnng av koreferens Koreferensbestämnng är ansett som ett svårt problem (Ng 00). Det har funnts stor samstämmghet att svårgheterna beror på beroendet av sofstkerad semantsk kunskap samt kunskap om världen. Ingen nformatonskälla är ensam fullständgt påltlg och en mängd olka ndkatorer samverkar. Exempelvs är semantskt kompatbla nomnalfraser (t.ex. drottnngen och Slva ) potentellt korefererande men om de verklgen korefererar beror på kontexten. I fgur. ges en llustraton av detta. På två ställen texten fnns frasen tre personer som trots att de är lka både tll antal och semantsk klass (person) nte refererar tll samma objekt. I andra fall, Nsse gck n på pzzeran och köpte en pzza. Den var god., behövs kunskap om världen. Den korefererar med en pzza och nte med pzzeran. V vet att det var pzzan han tyckte var god, man äter sällan pzzeror. Vdare krävs olka strateger för olka typer av nomnalfraser. Det är ofta svårare att bestämma koreferens för pronomen än för substantv och egennamn. Anafor och antecedent Ordet anafor kommer av grekskans anaphora (återförng, tllbakasyftnng). Allmänt nom språkvetenskap betecknar anafor ett uttryck som refererar tll ett uttryck som nämnts tdgare en text. Det tdgare uttrycket betecknas antecedent. Vd en anaforsk relaton mellan två fraser beror anaforen på antecedenten för sn tolknng (för dskusson, se Ng 00). Detta nnebär att relatonen mellan fraserna nte är symmetrsk. Den är nte heller transtv eller reflexv. Nomnalfraserna ( Drottnng Slva, hon ) har därmed en anaforsk relaton medan ( hon, Drottnng Slva ) nte har det. I båda exemplen är fraserna korefererande. I exemplet ( Drottnng Slva, Sverges drottnng ) fnns ngen anaforsk relaton då Sverges drottnng nte beror på Drottnng Slva för sn tolknng. Fraserna korefererar dock. Målet vd anaforabestämnng är att htta en antecedent för varje nomnalfras som beror på denna för sn tolknng. Vanlgtvs är anaforen här ett pronomen. Anaforabestämnng kan prncp ses som ett specalfall av koreferensbestämnng: fnns en anaforsk relaton mellan två nomnalfraser så korefererar de också. Det fnns dock undantag, se exempel nästa avsntt, Problem vd koreferensbestämnng. För en mer fullständg förklarng av skllnaderna mellan koreferens- och anaforabestämnng se t.ex. Ng (00) eller van Deemter & Kbble (000). Som vsats fnns det skllnader mellan anaforsk referens och koreferens. Av mplementatonsmässga skäl används dock prncp samma metod vd masknell koreferensbestämnng som vd anaforabestämnng. Det nnebär att för varje anaforsk nomnalfras söker programmet efter en antecedent bland de framförvarande nomnalfraserna, för att kontrollera om de korefererar. I den fortsatta framställnngen används därför, analog med anaforabestämnng, samma begrepp som vd anaforabestämnng för alla nomnalfraser en koreferenskedja. För varje korefererande par kallas den nomnalfras som förkommer först texten för antecedent och den senare för anafor. Problem vd koreferensbestämnng Att masknellt bestämma koreferens är nte bara ett teknskt problem. Det uppkommer vssa fall mer flosofska frågor om vad referens och koreferens nnebär. Som tdgare nämnts så korefererar två nomnalfraser om de har en gemensam referent. I MUC-7 (997) fnns rekommendatoner, som använts det här arbetet, för vlka nomnalfraser som anses vara korefererande. Det fnns fall där dessa rekommendatoner nte följer defntonen av koreferens exakt. Följande dskusson är hämtad från van Deemter & Kbble (000).

14 6 KAPITEL Koreferensbestämnng för nomnalfraser I frasen Varje gång jag såg ett problem så löste jag det anses de två nomnalfraserna vara korefererande MUC-7. Detta trots att ett problem nte kan sägas ha någon referent. Frasen avser varken någon enskld eller ändlg mängd entteter. Däremot har nomnalfraserna en anaforsk relaton, det beror på ett problem för sn tolknng. I frasen Göran Persson, tdgare Sverges fnansmnster, blev nu vald tll Sverges statsmnster anses de tre nomnalfraserna vara korefererande MUC-7. Detta är dock nte rmlgt enlgt defntonen för koreferens. Då koreferens är en ekvvalensrelaton skulle detta mplcera att Sverges fnansmnster och Sverges statsmnster var samma person. I frasen "Prset sänktes från 000kr tll 500kr" är det nte självklart vlka nomnalfraser som korefererar. Naturlgtvs kan nte 000kr och 500kr avse samma enttet. I MUC-7 anses Prset och det senaste prset, 500kr, vara korefererande. En annan möjlg lösnng är att säga att Prset det här fallet är funkton från en tdpunkt tll ett tal. Därmed skulle nomnalfraserna nte anses vara korefererande. Ytterlgare problem uppstår fall med potentell koreferens: Den ena blen kördes av den ensamme 0-årngen, och det var trolgen den blen som kom över på fel sda, uppger polsen. Här avser Den ena blen och den blen samma enttet vssa möjlga världar, men nte andra (där polsen hade fel). För vdare dskusson ämnet se van Deemter & Kbble (000). Det bör tlläggas att fall som de ovan beskrvna vart ovanlga texterna som använts det här arbetet. Menng och referens hstorsk bakgrund Den tyske flosofen Gottlob Frege skrver Über Snn und Bedeutung ( Om menng och referens ) (Frege 89) om begreppet referens. Frege gör en dstnkton mellan menng och referens för en fras. Fraserna morgonstjärnan och aftonstjärnan betecknar samma objekt, planeten Venus, och de korefererar därmed. Fraserna har samma referens men olka menng: den hmlakropp som syns på morgonen respektve den hmlakropp som syns på kvällen. Därmed är utsagan morgonstjärnan är samma sak som aftonstjärnan nformatonsrk medan utsagan morgonstjärnan är samma sak som morgonstjärnan nte ger någon nformaton, den är en tautolog. Om olka fraser, med samma referens, har olka menng bdrar de var och en med nformaton om referenten. Detta faktum utnyttjas det här arbetet en konstrukton kallad egenskapsöverförng (se 3.7)..3 Applkatoner för koreferensbestämnng Här ges en sammanställnng av olka typer av applkatoner som kan dra nytta av koreferensbestämnng. Om nget annat nämns är nformatonen hämtat från Ng (00). Informatonsextraherng Ett system för nformatonsextraherng tar en text från en gven domän som ndata och utvnner automatskt nformaton från texten. Koreferensbestämnng används här för att sammanställa nformatonen som berör en vss enttet som fnns omnämnd på olka platser texten. Den här nformatonen är sedan tll hjälp för att skapa en formell beskrvnng där händelser kan assoceras tll relevanta objekt. Carsm använder ett system för nformatonsextraherng för att skapa en formell beskrvnng av en trafkolycka omnämnd en text.

15 KAPITEL Koreferensbestämnng för nomnalfraser 7 Frågor och svar Ett system för frågor och svar har tll uppgft att besvara en fråga på naturlgt språk med hjälp av en stor samlng korpusar. En fråga som "Var föddes Mozart?" kan besvaras med "Han föddes Salzberg" från en text som handlar om Mozart. I det fallet måste ett system för koreferensbestämnng avgöra att "Mozart" och "Han" korefererar. Textsummerng Summerng av text hjälper användaren att få en bld av "vktg" nformaton som fnns en stor textmassa. Summerngen är en sammanfattnng av orgnaltexten utan redundant nformaton. I exempelvs Mcrosoft Word fnns numera en textsummerngsfunkton. Azzam et al. (999) beskrver ett användnngsområde för koreferensbestämnng för textsummerng. Deras utgångspunkt är det fnns något centralt begrepp en text som representeras av en koreferenskedja. Med hjälp av regler avgörs vlken koreferenskedja som är mest relevant och utfrån denna görs en sammanslagnng av delmängder av de menngar som nnehåller någon enttet från kedjan. Koreferensbestämnng över flera dokument Målet är här att avgöra om två nomnalfraser olka dokument refererar tll samma objekt. Koreferensbestämnng över flera dokument är användbart system för textsummerng där nformatonen som skall sammanställas fnns utsprtt flera dokument. Masknöversättnng System för masknöversättnng översätter en text på ett språk tll ett annat språk. Mellan vssa språk är koreferensbestämnng nödvändgt. Ett exempel är då ett pronomen, som korefererar med ett substantv, behöver bestämmas för ett av språken. Här kan substantvets genus avgöra hur det anaforska pronomenet och närlggande verb översätts..4 Masknell koreferensbestämnng Metoderna som används vd masknell koreferensbestämnng kan delas n två huvudtyper: kunskapsbaserade och korpusbaserade (Ng 00). Kunskapsbaserade metoder använder endast manuellt konstruerade regler för att avgöra koreferens. Korpusbaserade metoder utgår från en mängd texter, en korpus, med manuellt uppmärkta koreferenskedjor. Utfrån nformaton dessa annoterade texter skapas en modell som används för avgöra koreferens. Modellen kan skapas för hand, med statstska metoder eller med masknnlärnngsbaserade metoder. Metoden för koreferensbestämnng det här arbetet är masknnlärnngsbaserad med ett tllägg av ett fåtal enkla regler skapade för hand. En masknnlärnngsbaserad metod utgår från ett antal dokument med manuellt uppmärkta koreferenskedjor. Postva och negatva tränngsnstanser, antecedent-anaforpar, utvnns från de tränade texterna med någon metod. Varje par har en egenskapsvektor assocerad tll sg. Egenskapsvektorn nnehåller ett antal attrbut med t.ex. grammatsk eller semantsk nformaton, som utvnns från paret. Utfrån egenskapsvektorerna för de postva och negatva tränngsexemplen nduceras en klassfcerare automatskt med hjälp av en masknnlärnngsalgortm. Klassfceraren används sedan för att avgöra koreferens mellan två nomnalfraser. En klustrngsalgortm skapar koreferenskedjor genom att länka samman par av korefererande nomnalfraser där koreferensen bestämts av klassfceraren. Kedjorna bldar en partton på mängden korefererande nomnalfraser.

16 8 KAPITEL Koreferensbestämnng för nomnalfraser Vad som skljer olka arbeten för masknnlärnngsbaserad koreferensbestämnng är vlka kunskapskällor som används, vlken metod som används för att skapa tränngsdata, vlken nlärnngsbaserad algortm som används samt vlken klustrngsalgortm som används..5 En genersk algortm för koreferensbestämnng Ng (00) presenterar en genrsk algortm som används för prncp all koreferens- och anaforabestämnng. Algortmens ndata är en text utan restrktoner på mplementatonsspråket. De första tre stegen utförs på dokumentnvå medan de återstående stegen utförs på varje dskurselement texten. Här presenteras de olka stegen med relevant beskrvnng för koreferensbestämnng för nomnalfraser. IDENTIFIERING AV DISKURSELEMENT KARAKTÄRISERING AV DISKURSELEMENT För algortmer för koreferensbestämnng nnebär detta att alla nomnalfraser texten dentferas. Först defneras en representaton för nomnalfrasen, dess karaktärstka. När en representaton har bestämts är den andra uppgften att beräkna nformatonen specfcerad representatonen. 3 BESTÄMNING AV ANAFORER Här bestäms om en nomnalfras är anaforsk eller nte. Ickeanaforska element saknar, per defnton, en antecedent och algortmen behöver då nte söka efter en. Vssa system använder nte detta steg och antar då att alla nomnalfraser är potentella anaforer. 4 GENERERING AV MÖJLIGA ANTECEDENTER Då en nomnalfras bestämts att vara anaforsk genereras här en lsta med möjlga antecedenter. För de flesta algortmer är detta alla nomnalfraser före anaforen dokumentet. 5 FILTRERING Fltrerng är en process för att ta bort vssa möjlga antecedenter genererade 4 med hjälp av en mängd regler. Om någon av reglerna gäller tas elementet bort från lstan med möjlga antecedenter. 6 POÄNGSÄTTNING eller RANKNING Här används en algortm för att poängsätta/rangordna varje möjlg antecedent efter hur sannolkt det är att kanddatantecedenten - anaforen korefererar. 7 SÖKNING/KLUSTRING I detta steg väljs en av de möjlga antecedenterna från kanddatlstan. Är lstan tom väljs ngen antecedent. Har steg 6 utförts väljs det första/bästa elementet från lstan. För fallet med koreferensbestämnng nnebär detta steg ofta att en enkellänkad klustrngsalgortm applceras på varje anaforsk nomnalfras. En partton skapas från de korefererande nomnalfraserna dokumentet med ett kluster (en koreferenskedja) för varje mängd nomnalfraser som har en gemensam referent. Fgur.3 Genersk algortm för koreferens och anaforabestämnng.

17 KAPITEL Koreferensbestämnng för nomnalfraser 9 Notera att steg 3, 5 och 6 nte behöver utföras, fast det är ovanlgt att alla tre stegen saknas. Exsterande algortmer för koreferensbestämnng skljer sg åt hur de olka stegen mplementeras. Vdare förklarng av de olka stegen algortmen, relevanta för det här arbetet, ges kaptel 3..6 Relaterade arbeten Här presenteras tre olka arbeten som behandlar masknnlärnngsbaserad koreferensbestämnng. De vsar att masknnlärnngsbaserade system på senare år har uppnått fullt jämförbara resultat med kunskapsbaserade system. Arbetet av Soon et al. (00) har fungerat som en utgångspunkt det här arbetet. McCarthy & Lehnert (995) Usng Decson Trees for Coreference Resoluton McCarthy & Lehnert (995) beskrver RESOLVE, ett system som är tänkt användas nom ett system för nformatonsextraherng. Systemet används för koreferensbestämnng nom en specfk domän texter om jont-venture (ett jont-venture är ett gemensamt projekt eller företag som drvs samarbete mellan två eller flera företag). Metoden som används är masknnlärnngsbaserad och en klassfcerare skapas med beslutsträdsalgortmen C4.5 (Qunlan 993). Totalt använder RESOLVE åtta egenskaper klassfcerarens egenskapsvektor varav tre är domänspecfka för texter om jont-venture. T.ex. fnns egenskaper som för både antecedent och anafor testar om de refererar tll ett jont-venture. Av de domänoberoende egenskaperna är en postonell, befnner sg antecedent-anaforparet samma menng? En är lexkalsk, delar de en gemensam nomnalfras? Vdare fnns egenskaper som avgör om antecedent eller anafor är ett egennamn. En egenskap, alas, defneras som sann om både antecedent och anafor är egennamn och ett av namnen är en substräng av det andra. Inga syntaktska egenskaper har använts. Slutlgen beskrver McCarthy & Lehnert en jämförelse mellan deras masknnlärnngsbaserade metod och en kunskapsbaserad metod och rapporterar att den masknnlärnngsbaserade metoden presterar bättre. Soon et al. (00) A Machne Learnng Approach to Coreference Resoluton of Noun Phrases Soon et al. (00) beskrver ett domänoberoende system för koreferensbestämnng. De använder beslutsträdsalgortmen C5 (Rulequest Research 004) för att skapa en klassfcerare. Sammanlagt tolv olka egenskaper har använts för egenskapsvektorn. En av egenskaperna är lexkalsk, den jämför strängrepresentatonen mellan antecedent och anafor. Åtta av egenskaperna är grammatska: samma kön, samma numerus, apposton och olka nomnalfrastyper. Vdare fnns egenskaper för att avgöra om de tllhör samma semantska klass, har samma alas (gemensamt namn) och en som avgör avståndet räknat antalet menngar. Klassfceraren tränas med postva och negatva tränngsnstanser från texter med manuellt uppmärkta koreferenskedjor. Varje närmast ntllggande korefererande par används för att generera postva tränngsnstanser. För att mnska raton mellan postva och negatva tränngsexempel, och därmed skevheten för klassdstrbutonen, används bara en delmängd av de negatva tränngsexemplen. De skapas genom att för varje korefererande par generera negatva tränngsexempel för alla mellanlggande nomnalfraser par med anaforen. En enkellänkad klustrngsalgortm som söker efter närmaste antecedent före anaforen används för att skapa koreferenskedjor. Resultatet ndkerar att den lexkalska egenskapen, egenskapen alas och egenskapen för apposton är starka ndkatoner på koreferens. Systemet är applcerat på två standardkorpusar för koreferensbestämnng, MUC-6 (995) och MUC-7 (997). Resultatet är jämförbart med de bästa kunskapsbaserade systemen.

18 0 KAPITEL Koreferensbestämnng för nomnalfraser Ng & Carde (00a) - Improvng Machne Learnng Approaches to Coreference Resoluton Ng & Carde (00a) beskrver ett system som bygger på Soon et al. (00). Systemet använder beslutsträdsalgortmen C4.5 (Qunlan 993). En utvdgnng de gör från Soon et al. är att de utökar antalet egenskaper egenskapsvektorn från tll 53. En ny postonell egenskap (samma stycke), åtta nya lexkalska egenskaper (för strängjämförelser), fyra nya semantska egenskaper och 6 nya grammatska egenskaper har lagts tll. Vdare har klustrngsalgortmen ändrats. Ng & Carde använder en bäst-först klustrngsalgortm. Istället för att välja närmaste nomnalfras som anses koreferera med anaforen används en annan metod. Den nomnalfras, som av klassfceraren anses ha störst sannolkhet att koreferera av alla potentellt korefererande nomnalfraser, väljs som antecedent. Resultatet är att resultatet blr sgnfkant sämre, jämfört med Soon et al., då samtlga egenskaper egenskapsvektorn används. Då stället 6 för hand utvalda egenskaper används förbättras både precson och F-värde sgnfkant.

19 KAPITEL 3 Implementerng av koreferensbestämnng 3 Implementerng av koreferensbestämnng En utgångspunkt för utvecklandet av modulen för koreferensbestämnng har vart arbetet av Soon et al. * (00). Systemet är masknnlärnngsbaserat och bygger på en klassfcerare form av ett beslutsträd som skapats med beslutsträdsalgortmen C5 (Rulequest Research 004). Systemet använder tolv olka egenskaper egenskapsvektorn. Inte alla egenskaper från Soon et al. har mplementerats och en mndre kraftfull beslutsträdsalgortm, ID3 (Qunlan 993), har använts här. I tllägg tll metoderna presenterade Soon et al. har en fltermodul med handkodade regler tllkommt. Egenskapen för semantsk klass detta arbete är högsta grad domänberoende, tll skllnad från motsvarande egenskap Soon et al. En annan vktg ändrng är att egenskapen NUMBER (sngular/plural) Soon et al. ändrats tll den betydlgt mer kraftfulla egenskapen antal objekt. Vdare har en språkspecfk grammatsk egenskap för svenska, grammatskt genus (utrum/neutrum), lagts tll. Förutom dessa är ytterlgare ett antal egenskaper mplementerade. Klustrngsalgortmen är den samma, med tllägget att egenskapsöverförng under klustrngen tllkommt. Fler jämförelser mellan detta arbete och arbetet av Soon et al. fnns kaptel 4. I detta kaptel kommer metoderna som använts vd mplementatonen av modulen för koreferensbestämnng beskrvas. Referenser tll den generska algortmen kaptel kommer att ges för motsvarande steg här. 3. Indata Som korpus för utvecklng och testnng har texter om trafkolyckor från olka svenska tdnngar använts. Texterna går genom en ppelne av språkmoduler mplementerade Carsm (Johansson et al. 004; Dupuy et al. 00). Texterna processas tre olka språkmoduler nnan resultatet presenteras för modulen för koreferensbestämnng. Vad som utvnns av dessa tre moduler är ordklasstaggar, namngvna entteter och nomnalfraser. * För mer nformaton om arbetet av Soon et al., se under Relaterade arbeten kaptel.

20 KAPITEL 3 Implementerng av koreferensbestämnng Ordklasstaggar Carsm använder Granskas ordklasstaggare (Carlberger & Kann 999). Taggaren annoterar, taggar, varje ord en text med en märknngsetkett, en ordklasstagg. En ordklasstagg nnehåller nformaton om ordklass samt grammatsk nformaton om ordet, t.ex. numerus och genus. Förutom ordklasstaggen märker Granska upp ordets lemma, ordet grundform, samt vlken menng ordet tllhör. Ord Lemma Ordklasstagg (ordklass särdrag) Skåpblen skåpbl nn.utr.sn.def.nom lvshotande lvshotande pc.prs.utr/neu.sn/plu.nd/def.nom den den pn.utr.sn.def.sub/obj sjukhuset sjukhus nn.neu.sn.def.nom och och kn tmmar tmme nn.utr.plu.nd.nom Nklas Wkegård nklas wkegård sn.def.nom tar ta vb.prs.akt tom tom jj.pos.utr.sn.nd.nom akt = aktv form nn = substantv pos = postv def = defnt nom = nomnatv prs = presens nd = ndefnt obj = objektform sn = sngular jj = adjektv pc = partcp sub = subjekt kn = konjunkton plu = plural utr = utrum neu = neutrum pn = pronomen vb = verb Tabell 3. Några taggar uppmärkta av Granska med tllhörande förklarngar. Varje ord tlldelas alla de tolknngar det kan ha då taggaren nte kan avgöra om ett ord står t.ex. sngular/plural eller ndefnt/defnt form. Ordklasstaggen nkluderar de fallen sn/plu respektve nd/def för att ndkera obestämbarhet. Namngvna entteter Carsm märker upp vssa typer av egennamn med en etkett för vlken typ av objekt det representerar (Danelsson och Persson, 004). Varje sådant textelement kallas för en namngven enttet. Modulen för extraherng av namngvna entteter är domänberoende för texter om trafkolyckor. Objekttyperna är anpassade för sådana texter. Följande etketter fnns defnerade modulen: BRAND (blmärken), NAME (egennamn på personer), LOCATION (namngvna platser), AREA (landskap/länder), SQUARE (torg), ROAD (gator), STREET (vägar), HIGHWAY (motorvägar) och CITY (städer/stadsdelar). Nomnalfraser Den vktgaste ndatan kommer från modulen Carsm som detekterar nomnalfraser. Modulen taggar nte fullständga nomnalfraser. Något förenklat kan man säga att nomnalfraser utan efterställda attrbut men med framförställda attrbut, då dessa nte är nomnalfraser, taggas. Detta nnebär att nga nre nomnalfraser taggas.

21 KAPITEL 3 Implementerng av koreferensbestämnng 3 3. Uppmärknngsbara element Utfrån ndatan defneras de textelement som är tänkbara att ngå koreferenskedjor. På engelska används termen markable (Soon et al. 00) för dessa element. I denna rapport kallas de fortsättnngsvs för uppmärknngsbara element, eller bara element, om det tydlgt framgår från sammanhanget vad som avses. Termen omfattar det här arbetet dels nomnalfrasen och dels en mängd egenskaper assocerade tll nomnalfrasen. Utgångspunkten för de uppmärknngsbara elementen har vart de nomnalfraser som taggats av modulen för genererng av nomnalfraser Carsm. Nomnalfraserna från ndatan saknar efterställda attrbut och nre nomnalfraser och det lgger nte nom ramen för detta arbete att utvdga defntonen av dessa någon större omfattnng. Ett par modfkatoner har gjorts på nomnalfraserna ndatan. En typ av nre nomnalfraser har skapats och vssa nomnalfraser har tagts bort, utfrån ordlstor. Vad som tagts bort är t.ex. ensamma adjektv utan determnerare som taggas som nomnalfraser stor utsträcknng av Carsm. I andra fall taggas fraser felaktgt av ordklasstaggaren. T.ex. tolkas nordost nordost om Stockholm felaktgt som ett substantv och ordet blr därför uppmärkt som en nomnalfras. I texterna, som högsta grad är domänberoende, förekommer ett fåtal felaktga fraser relatvt högfrekvent texterna. Därför är det lätt att med ordlstor fltrera ut dessa. I MUC-7 Coreference Task Defnton (MUC-7 997) ges ett antal rekommendatoner för vad som konsttuerar ett uppmärknngsbart element. Rekommendatonerna avser fullständga nomnalfraser med obegränsat antal nre nomnalfraser för texter på engelska. Tll vss del har dessa rekommendatoner vart en utgångspunkt för defntonen av de uppmärknngsbara elementen det här arbetet. En enkel utvdgnng av nomnalfraserna genererade av Carsm var att skapa en typ av nre nomnalfraser. Detta gjordes för de fall då det framförställda attrbutet var form av en nomnalfras gentv. Bortsett från språkskllnaden och skllnaden med nre nomnalfraser är det några rekommendatoner från MUC-7 som nte har följts det här arbetet. Exempelvs fnns nget stöd för att märka upp årtal eller procent (%). Vdare fnns det antal typer av namngvna entteter som nte märks upp vlket beror på begränsnngar modulen för genererng av namngvna entteter. För vssa typer av nomnalfraser som saknas, eller är ovanlga, de texter om blolyckor som har använts för utvecklngen av det här arbetet har ngen kontroll gjorts att de märkts upp korrekt. Detta gäller exempelvs för frågepronomen. Målsättnngen har vart att en nomnalfras ett uppmärknngsbart element det här arbetet skall defneras enlgt följande regler:

22 4 KAPITEL 3 Implementerng av koreferensbestämnng Allmänt gäller att alla nomnalfraser t.o.m. huvudordet räknas som ett uppmärknngsbart element, med de restrktoner som beskrvs följande regler. Huvudordet för det uppmärknngsbara elementet kan vara ett substantv, adjektv, ordnngstal, namngven enttet eller pronomen. Är huvudordet en nomnalfras ett personlgt pronomen (han, jag, v), demonstratvt pronomen (den, den här), reflexvt pronomen (sg, sn) eller possessvt pronomen (mn, vår, er) räknas nomnalfrasen som ett uppmärknngsbart element. Är nomnalfrasens huvudord ett pronomen av någon annan typ räknas nomnalfrasen nte som ett uppmärknngsbart element. Ensamma adjektv eller ordnngstal räknas nte som uppmärknngsbara element, vlket de däremot gör om de har ett framförställt attrbut. För nomnalfraser med efterställda attrbut gäller att endast nomnalfrasen t.o.m. huvudordet ngår. Undantaget är då det efterställda attrbutet endast består av en namngven enttet. I det fallet räknas den namngvna entteten nte som en nre nomnalfras. För en nomnalfras som nleds med ett framförställt attrbut form av en nomnalfras gentv gäller: nomnalfrasen gentv räknas som nre nomnalfras om den saknar efterställt attrbut. Inga andra typer av nre nomnalfraser fnns defnerade. [[den andra kvnnans] Nssan Mcra]. Nomnalfras gentv blr nre nomnalfras. Endast en typ av nre nomnalfras används det här arbetet, då huvudordet följer på en nomnalfras gentv. [den vta blen] som krockade med [tåget]. Efterställt attrbut tas ej med. Den fullständga nomnalfrasen skulle här omfatta hela texten med två nre nomnalfraser. [[Djurgårdens] tränare Nklas Wkegård]. Egennamn som efterställt attrbut. Egennamn är den enda typen av efterställt attrbut som används. Namnet blr dock nte en nre nomnalfras. [Den tredje] klarade [sg] oskadd. Ordnngstal som huvudord. [De] var blåa och gula. Ensamma adjektv är ej uppmärknngsbara. [Den blåa] krockade med [den gula]. Adjektv med determnerare blr uppmärkta. Vem? [Jag]. Frågepronomen är ej uppmärknngsbara. Fgur 3. Uppmärkta nomnalfraser enlgt reglerna för uppmärknngsbara element det här arbetet. Huvudord fetstl. 3.3 Karaktärserng av uppmärknngsbara element - elementattrbut Detta steg motsvarar steg den generska algortmen.4 (sd. 8). Här beräknas en mängd parametrar, elementattrbut, för varje uppmärknngsbart element som senare behövs för att beräkna egenskapsvektorer. Den nformaton som används för dentferng av elementattrbuten för ett element är nomnalfrasens strängrepresentaton, ngående ordklasstaggar och namngvna entteter samt omgvande text. Varje element får ett värde efter vlken menng det förekommer samt ett ordnngsnummer. Ett nre element räknas som efterföljare tll stt föräldraelement. Defnton av elementattrbut Den första, och vktgaste, åtgärden är att dentfera huvudordet. Flertalet av de återstående elementattrbuten beräknas sedan utfrån huvudordet. Denna uppgft förenklas av att nomnalfraserna saknar efterställda attrbut (förutom namngvna entteter). Det nnebär att för element som saknar namngvna entteter är huvudordet det ssta ordet frasen.

23 KAPITEL 3 Implementerng av koreferensbestämnng 5 Tre olka lexkalska attrbut, strängrepresentatoner, utvnns för elementet: Strängen utan determnerare (artklar/demonstratva pronomen), huvudordets strängrepresentaton samt huvudordets strängrepresentaton grundform. De flesta grammatska egenskaper utvnns från huvudordets ordklasstagg. Intressanta egenskaper här är ordklass (substantv, pronomen etc.), numerus (sngular/plural), speces (bestämd/obestämd form) och grammatskt genus (utrum/neutrum). För dessa egenskaper gäller att de nte kan bestämmas entydgt av Granska samtlga fall. Då blr egenskapsvärdena odefnerade. Elementet defneras som pronomen om huvudordet är ett pronomen och som en namngven enttet om huvudordet är en namngven enttet. Även etketten för den namngvna entteten blr här ett attrbut, t.ex. NAME eller BRAND (se 3.). Elementets ordnngsnummer (,, 3, ) är defnerat om ett ordnngstal (förste/a, andre/a o.s.v.) förekommer nnan huvudordet. Elementets namn defneras med strängrepresentatonen för en namngven enttet: huvudordet om elementet är en namngven enttet och med det efterställda attrbutet om detta fnns och är en namngven enttet. I övrga fall är namnet nte defnerat. Antal objekt för elementet står för hur många objekt det representerar: en bl (), en av blarna (), fyra blar (4), flera blar (>), ngen av blarna (0), den tredje blen (). Vdare kan värdet okänt ges om numerus är obestämt. Egenskapen nämnd tdgare betecknar om det är sannolkt att objektet nämnts tdgare texten. En nomnalfras räknas som tdgare nämnt om det har ett ordnngsnummer. I vssa fall, där nomnalfrasen nleds med fraser som "en...", "ett annat..." eller "ytterlgare en..." räknas nomnalfrasen som cke tdgare nämnd. I andra fall kan detta nte bestämmas. Egenskapen obestämd delmängd sätts falls som: en del av blarna, några av blarna, flertalet blar. Det avser delmängder av någon (trolgtvs) tdgare nämnd mängd men där det nte kan avgöras vlken delmängd som avses. Egenskapen räknebar sätts om huvudordet defneras som räknebar. Med ett räknebart substantv menas att det nte kan delas (utan att förlora sna egenskaper) och kan förekomma flera exemplar: en bl, flera blar. Icke-räknebara substantv betecknar sådant som kan delas (utan att förlora sna egenskaper) och nte kan förekomma flera exemplar: de köpte smör. Tll cke-räknebara räknas även substantv där nte något specfkt objekt avses: hon rökte cgarr, han kör bl. Endast nomnalfraser bestående av ett substantv obestämd form kan defneras som cke-räknebar. Informatonen ordet före nomnalfrasen används för att bestämma räknebarhet. Är ordet före t.ex. ett verb (han kör bl), adverb (han kör nte bl) eller en konjunkton (han kör bl och buss) räknas nomnalfrasen som cke-räknebar. Egenskapen semantsk klass tlldelar elementet en semantsk klass. Klasserna är uppbyggda en herarksk trädstruktur (fgur 3.). De semantska klasserna är högsta grad domänberoende, de är anpassade för texter om trafkolyckor och fokus lgger på fordon och personer. Intentonen har vart att klasserna skall vara entydga; att ett element tllhör en vss semantsk klass utesluter att elementet även tllhör en annan semantsk klass som nte är föregångare eller efterföljare tll denna klass klassherarkn. Rotelement trädet är OBJEKT. Det fnns barnelement tll OBJEKT och totalt används 64 olka semantska klasser arbetet.

24 6 KAPITEL 3 Implementerng av koreferensbestämnng Objekt Person Stad Väg Gata Plats Händelse Organsaton Motorväg Skada Sak Fordon Förare Olycka Brand Personlg Befäl Krasch Eld Brandman Lyktstolpe Blförare Brandmästare Trafkolycka Träd Lastblsförare Chaufför Taxförare Chef Cyklst Flygplats Brännskada Huvudskada Kommssare Korsnng Passagerare Kyrka Polschef Olycksplats Brandkår Polsman Sjukhus Pols Teknker Skola Räddnngstjänst Turst Åklagare Ögonvttne Brandbl Buss Bärgnngsbl Flygplan Helkopter Husvagn Lastbl Mnbuss Personbl Släpvagn Spårvagn Tankbl Tax Traktor Van Fgur 3. Den semantska klassherarkn. För att dentfera semantsk klass används två metoder. Dels används en databas med reguljära uttryck och dels används eventuell namngven enttet för elementet. Om elementet är en namngven enttet sker en drekt översättnng mellan etketten för den namngvna entteten och semantsk klass. Tre elementattrbut är specfka för en vss semantsk klass, PERSON och dess underklasser. Egenskaperna är kön, ålderskategor och ålder för personer. Ålderskategor kan ha värdena barn eller vuxen och ålder representeras av ett numerskt värde för en persons ålder. Ålder kan utvnnas från fraser som en 0-årg man eller tjugoårngen. Ålderskategorn kan utvnnas på olka sätt. Först kontrolleras huvudordet från en ordlsta. Exempelvs kategorseras barnet, ungdomarna och flckan som barn medan fadern, pappan och kvnnan kategorseras som vuxen. Fnns ålder defnerat för elementet räknas personer under 8 år som barn och personer som är 8 eller äldre som vuxna. En persons kön utvnns på lknande sätt utfrån ordlstor ( flckan, pojken, hon, han, o.s.v.). Fnns namnet defnerat för personen kontrolleras även ordlstor med vanlga svenska manlga och kvnnlga förnamn vlka är ndkatorer på personens kön.

25 KAPITEL 3 Implementerng av koreferensbestämnng Egenskapsvektor För nlärnngsbaserad koreferensbestämnng måste en mängd egenskaper defneras för att klassfceraren skall kunna bestämma om två uppmärknngsbara element korefererar eller nte. Dessa egenskaper bldar en egenskapsvektor som tlldelas varje par av uppmärknngsbara element som presenteras för klassfceraren. Man kan kategorsera egenskaperna på olka sätt. En ndelnng har gjorts lexkalska, grammatska, semantska, postonella och övrga. Klassfcerngen är här nte självklar för alla egenskaper. Vdare är vssa egenskaper relatonella (jämförelser mellan en egenskap hos två element) eller cke-relatonella (egenskap hos ett av de båda elementen). Totalt består egenskapsvektorn av 0 egenskaper. Varje värde för en egenskap baseras på det ena, eller båda, av två extraherade element där E är en potentell antecedent och E anafor. Typ Egenskap Relatonella Möjlga värden Lexkalska Strängmatch Ja JA, NEJ Strängmatch för huvudord Ja JA, NEJ Strängmatch för huvudordets lemma Ja JA, NEJ Samma namn Ja JA, NEJ, OKÄNT Grammatska E är pronomen Nej JA, NEJ E är pronomen Nej JA, NEJ E är bestämd form Nej JA, NEJ, OKÄNT Samma numerus Ja JA, NEJ, OKÄNT Båda namngvna entteter Ja JA, NEJ Samma grammatska genus Ja JA, NEJ, OKÄNT Båda räknebara Ja JA, NEJ Semantska Lkhet för semantsk klass Ja JA, NEJ, OKÄNT Samma kön Ja JA, NEJ, OKÄNT Samma antal objekt Ja JA, NEJ, OKÄNT Postonella Avstånd Ja 0, >0 Är närmaste element Ja JA, NEJ Övrga E är ospecfcerad Nej JA, NEJ delmängd E är ospecfcerad Nej JA, NEJ delmängd E nämnd tdgare Nej JA, NEJ, OKÄNT Samma ordnngsnummer Ja JA, NEJ, OKÄNT Tabell 3. Egenskapsvektor. Egenskaperna egenskapsvektorn har defnerats på följande sätt: Strängmatch: Om strängrepresentatonen för elementen, utan determnerare och omvandlat tll gemener, är dentsk ges värdet JA, annars NEJ. Strängmatch för huvudord: Om strängrepresentatonen för elementens huvudord, omvandlat tll gemener, är dentsk ges värdet JA, annars NEJ. 3 Strängmatch för huvudordets lemma: Om strängrepresentatonen för elementens huvudords lemma är dentsk ges värdet JA, annars NEJ.

Kvalitetsjustering av ICT-produkter

Kvalitetsjustering av ICT-produkter Kvaltetsjusterng av ICT-produkter - Metoder och tllämpnngar svenska Prsndex Producent- och Importled - Enheten för prsstatstk, Makroekonom och prser, SCB December 2006 STATISTISKA CENTRALBYRÅN 2(55) Kontaktnformaton

Läs mer

Företagsrådgivning i form av Konsultcheckar. Working paper/pm

Företagsrådgivning i form av Konsultcheckar. Working paper/pm Workng paper/pm 2012:02 Företagsrådgvnng form av Konsultcheckar En effektutvärderng av konsultcheckar nom ramen för regonalt bdrag för företgsutvecklng Tllväxtanalys har uppdrag att utvärdera effekterna

Läs mer

Balansering av vindkraft och vattenkraft i norra Sverige. Elforsk rapport 09:88

Balansering av vindkraft och vattenkraft i norra Sverige. Elforsk rapport 09:88 Balanserng av vndkraft och vattenkraft norra Sverge Elforsk rapport 09:88 Mkael Ameln, Calle Englund, Andreas Fagerberg September 2009 Balanserng av vndkraft och vattenkraft norra Sverge Elforsk rapport

Läs mer

Ekonomihögskolan Lunds Universitet Vårterminen 2006. Priset på Poker. En studie av efterfrågeelasticiteten på Internetpoker.

Ekonomihögskolan Lunds Universitet Vårterminen 2006. Priset på Poker. En studie av efterfrågeelasticiteten på Internetpoker. Natonalekonomska Insttutonen Kanddatuppsats Ekonomhögskolan Lunds Unverstet Vårtermnen 006 Prset på Poker En stude av efterfrågeelastcteten på Internetpoker Författare Tony Krstensson Dag Larsson Handledare

Läs mer

Utveckling av en optimeringsmodell för upphandlingar inom telefoni

Utveckling av en optimeringsmodell för upphandlingar inom telefoni Utvecklng av en optmerngsmodell för upphandlngar nom telefon Examensarbete vd Insttutonen för teknsk ekonom och logstk, avdelnngen för produktonsekonom. Lunds Teknska Högskola, Lunds Unverstet Handledare:

Läs mer

EXAMENSARBETE. Nord Pools olika prisområden, samma marknad? Ellen Edjegul Aresh. Ekonomie magisterexamen Nationalekonomi

EXAMENSARBETE. Nord Pools olika prisområden, samma marknad? Ellen Edjegul Aresh. Ekonomie magisterexamen Nationalekonomi EXAMENSARBETE Nord Pools olka prsområden, samma marknad? Ellen Edjegul Aresh Ekonome magsterexamen Natonalekonom Luleå teknska unverstet Insttutonen för ekonom, teknk och samhälle SAMMANFATTNING Sverge

Läs mer

Hjortdjurens inverkan på tillväxt av produktionsträd och rekrytering av betesbegärliga trädslag

Hjortdjurens inverkan på tillväxt av produktionsträd och rekrytering av betesbegärliga trädslag RAPPORT 9 2011 Hjortdjurens nverkan på tllväxt av produktonsträd och rekryterng av betesbegärlga trädslag - problembeskrvnng, orsaker och förslag tll åtgärder Jonas Bergqust, Chrster Kalén, Hasse Berglund

Läs mer

A2009:004. Regional utveckling i Sverige. Flerregional integration mellan modellerna STRAGO och raps. Christer Anderstig och Marcus Sundberg

A2009:004. Regional utveckling i Sverige. Flerregional integration mellan modellerna STRAGO och raps. Christer Anderstig och Marcus Sundberg A2009:004 Regonal utvecklng Sverge Flerregonal ntegraton mellan modellerna STRAGO och raps Chrster Anderstg och Marcus Sundberg Regonal utvecklng Sverge Flerregonal ntegraton mellan modellerna STRAGO

Läs mer

INVALLNINGSMODELLER FÖR PETROLEUMCISTERNER

INVALLNINGSMODELLER FÖR PETROLEUMCISTERNER KTH Byggvetenskap Samhällsbyggnad Kunglga Teknska Högskolan INVALLNINGSMODELLER FÖR PETROLEUMCISTERNER SECONDARY CONTAINMENT MODELS FOR PETROLEUM TANKS Examensarbete byggnadsteknk Nr 395 Byggvetenskap

Läs mer

Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet 106 91 Stockholm Sverige

Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet 106 91 Stockholm Sverige "!# " $ % &('*),+.-0/0%'&%3)5476 8 &(' 9;: +@),>BA % &C6D% &E>>):D4 F GIHJGLKMONQPRKTSVUXW Y[Z]\8 &4^>_\0%"à&b+ & c

Läs mer

Råd och tips för dig som vill bli framgångsrik hästföretagare!

Råd och tips för dig som vill bli framgångsrik hästföretagare! HÄSTFÖRETAGARPRAKTIKAN Råd och tps för dg som vll bl framgångsrk hästföretagare! Inlednng Har du en hästverksamhet tankarna? Fundera på varför! Trolgen delar du med de flesta andra hästföretagare en passon

Läs mer

Denna tematidning är en annons från NextMedia. Många krafter måste dra åt samma håll

Denna tematidning är en annons från NextMedia. Många krafter måste dra åt samma håll Denna tematdnng är en annons från NextMeda Framtdens Forsknng från dé tll applkaton Sverge behöver större forskargrupper Många krafter måste dra åt samma håll Den globala kunskapskonkurrensen hårdnar Om

Läs mer

Undersökning av vissa försäkringsantaganden i efterlevandepension för anställda i kommuner och landstinget och dess påverkan på prissättningen

Undersökning av vissa försäkringsantaganden i efterlevandepension för anställda i kommuner och landstinget och dess påverkan på prissättningen Matematsk statstk Stockholms unverstet Undersöknng av vssa försäkrngsantaganden efterlevandepenson för anställda kommuner och landstnget och dess påverkan på prssättnngen Ilkay Gölcük Eamensarbete 7:5

Läs mer

Cancerforskning som gör skillnad

Cancerforskning som gör skillnad Denna tematdnng är en annons från Radumhemmets Forsknngsfonder Cancerforsknng som gör skllnad Ingår som blaga Svenska Dagbladet 18:e mars 2010 Cancerförenngen Stockholm pg 90 06 90-9 Stftelsen Konung Gustaf

Läs mer

Framtidens Bank & Försäkring

Framtidens Bank & Försäkring DennA tematd nng är en från nextm e D A Det är vktgt att regelverken gör det möjlgt för försäkrngsbolagen att fylla sn roll på ett bra sätt Chrstna Lndenus, vd för Svensk Försäkrng Kundernas förtroende

Läs mer

Cancer har många ansikten hjälp oss rädda fler

Cancer har många ansikten hjälp oss rädda fler a nnons Denna tematd nng är en annons från r a D umhemmets f orsknngsfond er a nnons Foton: Håkan Flank Cancer har många anskten hjälp oss rädda fler Nytt behandlngskoncept för sprdd prostatacancer Forskarteam

Läs mer

Framtidens Bank & Försäkring

Framtidens Bank & Försäkring Annons DennA tematd nng är en Annons från nextm e D A Annons Med utvecklngen kommer många nya utmanngar och nya konkurrenter Johan Hansng, chefsekonom på Svenska Bankförenngen. Fokus borde lgga på hur

Läs mer

Framtidens Bank & Försäkring

Framtidens Bank & Försäkring Denna tematdnng är en annons från NextMeda Framtdens Bank & Försäkrng trender nom t, betalnng och säkerhet Bankerna stabla och väl förberedda för nya kaptalregler Flodvåg av nya reglerngar utmanar försäkrngsbranschen

Läs mer

Framtidens Karriär Läkare

Framtidens Karriär Läkare Psykatrkerrollen har erbjudt mg en frhet att skräddarsy mn egen yrkesroll Smon Kyaga, psykatrker och överläkare Läkare ska kunna fokusera på dagnostk, behandlng och det medcnska ansvaret Hed Stensmyren,

Läs mer

DennA tematid ning är en Annons från nextm e D i A. Framtidens Energi. Positiva trender för förnybar energi i Sverige och världen

DennA tematid ning är en Annons från nextm e D i A. Framtidens Energi. Positiva trender för förnybar energi i Sverige och världen DennA tematd nng är en från nextm e D A Framtdens Energ för en hållbar utvecklng och konkurrenskraft Energforsknng ntegrerad del av svensk energpoltk Postva trender för förnybar energ Sverge och världen

Läs mer

Framtidens Bank & Försäkring

Framtidens Bank & Försäkring DennA tematd nng är en från nextm e D A Foto: Fredrk Persson/Scanpx Jag är övertygad om att mobltelefonen kommer att vara ett av våra vktgaste verktyg för bankärenden och betalnngar nom några år Chrstan

Läs mer

Framtidens Forskning

Framtidens Forskning Annons DennA tematd nng är en Annons från nextm e D A Annons Framtdens Forsknng SSF har systempåverkande roll som forsknngsfnansär stftelsen för strategsk forsknng höjer nu utdelnngarna och påbörjar arbetet

Läs mer

Framtidens Energi för en hållbar utveckling

Framtidens Energi för en hållbar utveckling Denna tematdnng är en annons från NextMeda Framtdens Energ för en hållbar utvecklng Samarbeten och statlgt stöd ger lösnngar världsklass Sverge har nått en världsledande ställnng nom en rad områden när

Läs mer

Framtidens Karriär. Flexibel arbetstid och högre lön attraherar på mindre ort. Att arbeta som sjuksköterska på en

Framtidens Karriär. Flexibel arbetstid och högre lön attraherar på mindre ort. Att arbeta som sjuksköterska på en Framtdens Karrär Sjuksköterska Arbetsbelastnng, vllkor och patentsäkerhet fokus Flexbel arbetstd och högre lön attraherar på mndre ort Erbjuder påverkansmöjlgheter, ansvar och varaton Den undersöknng som

Läs mer

Förslag till energiplan

Förslag till energiplan Förslag tll energplan Blaga 1: Planerngsförutsättnngar 2014-05-20 Remssverson BI L A G A 1 : P L A N E RI N G S F Ö R UT S Ä T T N I N G A R Förslag tll energplan Fnspångs kommun 612 80 Fnspång Telefon

Läs mer

Framtidens Bank & Försäkring

Framtidens Bank & Försäkring DennA tematd nng är en från nextm e D A Thomas Östros, vd för Svenska Bankförenngen Chrstna Lndenus, vd för Svensk Försäkrng Framtdens Bank & Försäkrng trender nom t, affärsutvecklng och säkerhet Förankrad

Läs mer

DENNA TEMATIDNING ÄR EN ANNONS FRÅN NEXTMEDIA. Framtidens Energi. Med siktet på framstående energiforskning

DENNA TEMATIDNING ÄR EN ANNONS FRÅN NEXTMEDIA. Framtidens Energi. Med siktet på framstående energiforskning ANNONS DENNA TEMATIDNING ÄR EN ANNONS FRÅN NEXTMEDIA ANNONS Framtdens Energ för en hållbar utvecklng Samverkan en förutsättnng för att klara energmål Energmyndgheten ska verka för ett tryggt, effektvt

Läs mer

DennA tematid ning är en Annons från nextm e D i A. Framtidens Energi. Sverige har unikt bred och långsiktig energipolitik

DennA tematid ning är en Annons från nextm e D i A. Framtidens Energi. Sverige har unikt bred och långsiktig energipolitik DennA tematd nng är en från nextm e D A Framtdens Energ för en hållbar utvecklng och konkurrenskraft Hållbar energ går hand hand med lvskvaltet och tllväxt Sverge har unkt bred och långsktg energpoltk

Läs mer

Cancer är en tuff motståndare

Cancer är en tuff motståndare D e n n A p u b l k At o n ä r e n A n n o n s f r å n r A D u m h e m m e t s f o r s k n n g s f o n D e r Cancer är en tuff motståndare hjälp oss ge fler en tro på framtden Nya upptäckter förlänger

Läs mer

Framtidens Karriär. Sveriges främste itentreprenör

Framtidens Karriär. Sveriges främste itentreprenör Framtdens Karrär Kombnerar konsultkarrär med kvnnlgt ledarskap Sverges främste tentreprenör mot nya mål Affärssystem ett brett och mångfacetterat yrkesområde Ett tungt vägande skäl tll att välja 4 en konsultkarrär

Läs mer