Inlämningsuppgift: Pronomenidentifierare

Relevanta dokument
Grammatik för språkteknologer

Instuderingsmaterial: Adjektiv, Substantiv och Verb

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grundläggande textanalys. Joakim Nivre

Gränssnitt för FakeGranska. Lars Mattsson

729G09 Språkvetenskaplig databehandling

gramma%k pronomen, a-ribut, adjek%v (fraser), räkneord och syntak%sk funk%on

Ordklasser och satsdelar

Harry Potter och De Vises Sten, den spännande ungdomsboken, skriven av den engelska författaren J.K. Rowling, har blivit en succé över hela världen.

ORDKLASSERNA I SVENSKA SPRÅKET

Bootstrapping för substantivtaggning

Grammatisk teori II Attributvärdesgrammatik

Frasstrukturgrammatik

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Lingvistiskt uppmärkt text

Träningshäfte ordklasser (Venus)

1 Vilka ord är substantiv? Läs texten.

PROV ORDKLASSER SV Förklara vad ett konkret substantiv är och ge två exempel (3p)

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Dependensregler - Lathund

Cristina Eriksson oktober 2001

Grammatik för språkteknologer

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

grammatik Ordklasser, nominalfraser, substantiv

Författare: Eeva-Liisa Järvinen, Projektet På väg mot kommunikativ kompetens: tillägnandet av svenskans struktur/ Åbo Universitet

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Facit för diagnostiska provet i grammatik

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Grammatik för språkteknologer

Fraser, huvuden och bestämningar

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Svenska - Läxa ORD att kunna förklara

Lärarmaterial. H som i häxa. Vad handlar boken om? Mål och förmågor som tränas: Eleverna tränar på följande förmågor: Författare: Mårten Melin

Förslag på instruktioner och arbete med bedömning av muntlig presentation, från MMT-utredning 2003

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Kongruensböjningen av adjektivet påverkas av substantivets genus och numerus.

Logging Module into the PRIME Core

Verb. "Verb" är ord som är namn på en handling eller visar att någon eller något är i ett visst tillstånd. Ordet verb betyder ursprungligen "ord".

Språkteknologi. Språkteknologi

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Grammatikprov åk 8 ORDKLASSER

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Partiell parsning Parsning som sökning

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Snabb introduktion till LäsDax & SkrivDax 1 De fyra tillfällena

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Kungliga Tekniska Högskolan Patrik Dallmann

Det här dokumentet är till för att ge en översikt över ASP.NET MVC samt hur WCF Services används från.net applikationer.

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

SUBSTANTIV = namn på saker, personer, känslor

Lingvistiska grundbegrepp

TDDD92 Artificiell intelligens -- projekt

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Datum: Date: Provkodr: KTR1 Exam code:

Abstraktion. Objektorientering. Kartor. Kartor. Hus. Generalisering

Svenskans struktur, 7,5 hp Tentamensexempel 1

Tekniker för storskalig parsning

Tentamen Marco Kuhlmann

Får jag använda Wikipedia?

Algoritmer, datastrukturer och komplexitet

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Programmering II (ID1019) :00-11:00

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

ORDKLASSERNA I. Ett sätt att sortera våra ord

Utveckling av ett grafiskt användargränssnitt

STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar

GRUNDKURS I C-PROGRAMMERING

Välkomna till DIT012 IPGO

Tema Antiken år 6 Svenska

Statistisk grammatikgranskning

Relativa, kriteriebaserade och målrelaterade betyg. Målrelaterade kriterier. Relationen betygskriterier lärandemål

Träningshäfte ordklasser facit

Grundläggande textanalys, VT2013

Det är principer och idéer som är viktiga. Skriv så att du övertygar rättaren om att du har förstått dessa även om detaljer kan vara felaktiga.

a = a a a a a a ± ± ± ±500

Satslära introduktion

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

Träningsguide för barn och ungdom inom IK Huge Fotboll

BG306A Strukturmekanik, bärverksanalys MT129A Finita elementmetoden

Frågor för bedömning av utvärdering av projekt

som har en integrerad hörselskadad elev i sin grupp

Diskussionsforum - Lärarmanual

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

MÖSG ht 2005 Maskinöversättningssystemet MATS

HUR SKRIVER MAN EN LABORATIONSRAPPORT OCH VARFÖR?

Automatisk igenkänning av nominalfraser i löpande text

Språkteknologi och Open Source

Kursbeskrivning med litteraturlista HT-13

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Rekryteringsprocess. Rekryteringssteg. 1. CV-screening 2. IQ Test 3. Intervju med Säljcoach, Extern konsult samt VD 4. Referenser.

TDP Regler

Föreläsning 10. Besiktningsprotokollet

Välkomna till DIT012 IPGO. Tyvärr en bug i Google Docs: Sidnummer stämmer inte alltid. Alla anteckningar börjar på sidan 1.

Transkript:

1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1

2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer... 4 4.1 Definiteness... 5 4.2 Lexical reiteration... 5 4.3 Non-prepositional noun phrases... 5 4.4 Collocation pattern reference... 5 4.5 Givenness... 5 4.6 Indicating verbs... 5 4.7 Section heading preference... 6 4.8 Immediate reference... 6 4.9 Referencial distance... 6 4.10 Term preference... 6 4.11 Personliga pronomen... 6 5 Resultat... 6 6 Sammanfattning... 7 2

3 (7) 1 Uppgiften Detta är en presentation av en mindre projektuppgift i kursen Språkteknologi på KTH. Uppgiften består i att implementera och utvärdera en algoritm för att hitta ett förslag till antecedent till ett pronomen i löpande text. Algoritmen är föreslagen av Ruslan Mitkov 1998 1. Den har blivit omarbetad sedan dess men vi skulle alltså implementera denna. Mitkovs algoritm är anpassad för engelsk text, och dessutom för tekniska manualer. I vårt fall var det föreslaget att vi skulle titta på resolution i svensk nyhetstext. Detta innebär att algoritmen inte kan implementeras utan modifikation. Vi återkommer till varför, och hur det påverkade detta projekt i praktiken. 2 Algoritmen i korthet Algoritmen bygger på heuristik och styrkan är att den är kunskapsfattig och inte kräver någon lingvistisk analys av den aktuella texten. Algoritmen är konceptuellt sett ganska enkel och rättfram. Indata förutsätts vara en textström med ordklass- och IOB-taggade ord. Stega igenom meningarna. Sök efter pronomen i varje mening. Vid funnet pronomen sök igenom den aktuella meningen, samt de två tidigare, efter nominalfraser. Sök endast till vänster om anaforen. Välj ut de nominalfraser som stämmer överens med anaforen i genus och numerus som tänkbara kandidater. Varje kandidat poängsätts med en mängd indikatorer. Välj den kandidat som har högst poäng som antecedent. Om två eller flera kandidater får samma poäng, välj någon av dessa till antecedent med lämplig strategi. Det centrala i algoritmen är hur dessa indikatorer fungerar. I avsnitt 4 ska vi titta närmare på dessa. Där ska vi också titta på hur en strategi vid lika poäng kan se ut. 3 Representation av data För att få det indata som söks måste den obehandlade texten först analyseras och taggas med hjälp av någon textanalysator. Till vår hjälp hade vi Granskas Text Analysator (GTA), som tar in en textström och returnerar en taggad textström i XML-format. 1 http://acl.ldc.upenn.edu/p/p98/p98-2143.pdf 3

4 (7) Meningen bollen är rund taggad med GTA Denna XML-text måste parsas in i en lämplig datastruktur. Vi valde att representera texten i en objektmodell, där meningar och ord håller en mängd data som t.ex. ordets lemma, ordklasstaggar och IOB-taggar. Orden håller också information om aktuell kandidatpoäng, vald antecedent (om det är ett pronomen) och annan data av den typen. Detta skulle kunna representas i listor utanför också men vi tyckte att detta verkade enkelt. Text Sentence -Word Denna modell är som synes lite förenklad. För att implementera ett mer generellt ramverk där det är möjligt att lägga till nya tänkbara indikatorer i algoritmen så behövs det en finare uppdelning av textmassan, där man håller reda på klausuler och frasgränser också. För de indikatorer vi har valt att implementera så räcker det emellertid med ovanstående representation. 4 Indikatorer En indikator är en funktion som tar en anafor och en mängd nominalfraser som indata. Dessutom behöver den tillgång till hela texten och dess beståndsdelar för att kunna avgöra vissa egenskaper hos nominalfraserna. Vi återkommer till detta senare i texten. Indikatorn poängsätter varje kandidat efter en given preferens. När alla indikatorer har körts så väljs den bästa kandidaten. Mitkov använder sig av tio olika indikatorer. Dessa är som sagt anpassade för att användas på en engelsk teknisk manual. I denna uppgift var strävan att implementera Mitkovs indikatorer och sedan modifiera dem för att passa svensk nyhetstext. För att detta ska kunna göras fullt ut krävs mycket empiriskt arbete och tid. Arbete som tyvärr inte ryms inom ramarna för denna laboration. Bland annat så skulle en frekvensanalys på vanliga ord i svensk nyhetstext behövas. Detta skulle kunna göras på KTH news corpus. För att skapa adekvata indikatorer krävs också stor kunskap om det aktuella språket och dess egenskaper. När dessa indikatorer är definierade så måste man sedan också empiriskt testa dem och ställa in poängnivåerna för att nå ett så när optimalt resultat som möjligt. Detta är som förståeligt ett mycket omfattande arbete. Nedan följer en presentation av Mitkovs indikatorer. Kom ihåg att de är anpassade för tekniska manualer på engelska. För att vi inte ska göra oss skyldiga till svengelska så behåller vi de engelska namnen. 4

5 (7) 4.1 Definiteness Nominalfraser i bestämd form är med högre sannolikhet antecedent än en obestämd sådan. (Bestämd nominalfras får 0 poäng och obestämd får -1 poäng). GTA:s taggning ger oss inte direkt information om ett nomen tillhör en bestämd nominalfras. Här måste man alltså inte bara kolla på nomenets species utan också avgöra om det bestäms av ett possessivt pronomen (Hans bil). I engelska undersöks också om det bestäms av demonstrativa pronomen. 4.2 Lexical reiteration Nomen (tillhörande lemma) som upprepas i det stycke som pronomenet befinner sig i får högre poäng. (0 om det inte upprepas någon gång, 1 vid en upprepning och 2 om ordet upprepas två eller flera gånger). Detta verkar rimligt i en svensk nyhetstext också. Här är också ett exempel på då man måste läsa in hela texten, eller åtminstone det aktuella stycket, innan man kan beräkna poängen för kandidaterna. 4.3 Non-prepositional noun phrases Ett nomen som inte är i en prepositionsfras får högre poäng än ett som är i en (0, -1). 4.4 Collocation pattern reference Här tittar man på hur en kandidat förhåller sig till verbet i en mening (klausul). Om det förekommer i samma ordning som anaforen gör så får det högre poäng (2, 0). Mitkov begränsar sig till att undersöka följderna nominalfras/pronomen verb och verb nominalfras/pronomen Vi är dock inte övertygade om hur väl detta stämmer överens med svenska. Kanske kan det till och med vara tvärt om, att det är större chans att ett nomen är antecedent om verbföljden är tvärtom. Det enklaste vore att titta på subjekt/predikat men GTA stöder inte det. 4.5 Givenness Ofta är det den första nominalfrasen i en mening som utgör den centrala (givna) informationen som också behandlas senare i texten. Med andra ord kan man dra slutsatsen att pronomen oftare syftar till nominalfraser som förekommer tidigt i en föregående mening, förutsatt att meningen inte är imperativ. Dessa nomen får en 1 poäng och andra icke-centrala nomen får 0 poäng. 4.6 Indicating verbs Nomen som direkt följer vissa kontextspecifika verb utgör oftare antecedenten än nomen som följer mindre kontextspecifika verb. Exempel på dessa verb är i Mitkovs fall för en teknisk manual; analysera, utveckla, definiera, sammanfatta m.m. Dessa verb bestäms på empirisk väg utifrån det kontext som ska behandlas. Nomen som följer dessa verb ger Mitkov 1 poäng. 5

6 (7) 4.7 Section heading preference Nominalfraser som förekommer i rubriken är ofta antecedenter till pronomen i det efterföljande stycket. Dessa kandidater får därför 1 poäng. 4.8 Immediate reference En heuristik som kan komma till nytta vid pronomenidentifiering inom tekniska manualer är att det för meningar med instruktioner ofta går att identifiera antecedenten som det nomen som efterföljer den första uppmaningen. Ett förklarande exempel är För att öppna locket ska man skruva det och sedan lyfta det. Här är ordet efter första verbet (locket) antecedent till det. Man kan tänka sig andra former av heuristiken för svenska där orden är omkastade i uppmaningsfrasen som t.ex. För att öppna locket ska det skruvas och sedan ska det lyftas då verben förekommer i s-form. 4.9 Referencial distance För komplicerade meningar poängsätts nominalfraser i den föregående klausulen med 2 poäng, därefter nominalfraser i den föregående meningen med 1 poäng och nominalfraser ytterligare en mening bakåt får 0 poäng. Nominalfraser ännu längre bakåt straffas med en poäng. 4.10 Term preference Nominalfraser som ingår i terminologin för ett specifikt område utgör oftare också antecedenten till pronomen. Dessa kandidater får därför 1 poäng. 4.11 Personliga pronomen När personliga pronomen han och hon förekommer syftar dessa på ett egennamn. Dessa poängsätts med 1 poäng. 5 Resultat I vår algoritm valde vi, i brist på tid att implementera de av Mitkovs indikatorer som var mest generella och passade för en svensk nyhetstext. En av Mitkovs indikatorer som inte implementerades men ändå faller i denna kategori är section heading preference. De indikatorer som vi valde är: definiteness, lexical reiteration, non-prepositional noun phrases och collocation pattern reference. Vi valde också att implementera en egen indikator för personliga pronomen som poängsätter pronomen för han och hon då dessa är vanligt förekommande i nyhetstexter. Resultatet består av enkla meningar med utmärkta antecedenter. Anledningen till att vi inte lyckades pronomenidentifiera en större textmassa beror på ett problem med uppkopplingen till GTA. Exempel på meningar som pronomenidentifieraren lyckades med är: Pojken kastar en boll. Han (pojken) är glad. En bil och en moped krockade och mopeden gick sönder. Den (mopeden) gick inte att laga. En kille sprang in i en vägg. I efterhand tyckte han (kille) att det var lite onödigt. 6

7 (7) Räven sprang fram och då ropade hönan på hjälp. Han (räven) jagade hönan runt huset. Pelle åkte hem till mannen och han (Pelle) var glad. 6 Sammanfattning Vi har implementerat Mitkovs algoritm för pronomenidentifiering och strävat efter att anpassa denna till en svensk nyhetstext. Algoritmen baseras på heuristik där indikatormetoder poängsätter kandidater till pronomen utefter specifika preferenser. Mitkov redogör för 10 indikatorer och vi har valt att implementera fyra av dessa plus ytterligare en indikator för personliga pronomen. 7