Linköpings universitet. Kognitionsvetenskap. Instutitionen för datavetenskap. Kandidatuppsats 15 ECTS. CogFLUX

Relevanta dokument
Tekniker för storskalig parsning

Tekniker för storskalig parsning

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

Permutationer av omskrivningsregler -Egenskaper hos omskrivningsregler till lättläst svenska

LINKÖPINGS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Dependensregler - Lathund

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

Grundläggande textanalys. Joakim Nivre

Språkteknologi och Open Source

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Statistisk grammatikgranskning

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Inlämningsuppgift: Pronomenidentifierare

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lingvistiskt uppmärkt text

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tentamen Marco Kuhlmann

Grammatik för språkteknologer

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Partiell parsning Parsning som sökning

SkrivLätt en undersökning av möjligheterna att utveckla ett datoriserat hjälpmedel för framställning av lättlästa texter

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Tekniker för storskalig parsning: Grundbegrepp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Föreläsning 6: Analys och tolkning från insamling till insikt

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Meningssegmentering i SUC och Talbanken

729G09 Språkvetenskaplig databehandling

Tentamen Del A. Marco Kuhlmann

Korp. Övningar Språkbankens höstworkshop oktober 2016

Word- sense disambiguation

Grammatik för språkteknologer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

WEBBLÄTTLÄST SLUTRAPPORT

EasyReader (FriendlyReader)

Tekniker för storskalig parsning

Grundläggande textanalys, VT2013

Karp. Övningar Språkbankens höstworkshop oktober 2016

Grammatik för språkteknologer

"Distributed Watchdog System"

WEBBKLUSTRING SLUTRAPPORT

Sofie Johansson Kokkinakis

Mälardalens högskola

Förslag den 25 september Engelska

Extramaterial till Matematik X

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Automatisk textsammanfattning

Grafisk visualisering av en spårbarhetslösning

Utveckling av ett grafiskt användargränssnitt

Word-guide Introduktion

Oppositionsprotokoll-DD143x

Kungliga Tekniska Högskolan Patrik Dallmann

Lättläst är en del av tillgängligheten

Bootstrapping för substantivtaggning

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock

TDDD02 Föreläsning 7 HT-2013

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Språkpsykologi/psykolingvistik

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT Lars Larsson Algoritmer 1

Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8

Kunskapsgraf. Fredrik Åkerberg Tommy Kvant 1 Introduktion. 2 Relaterade projekt.

Gränssnitt för FakeGranska. Lars Mattsson

Kravspecifikation Fredrik Berntsson Version 1.3

Business research methods, Bryman & Bell 2007

Bedömningskriterier för kandidatuppsats i omvårdnad

Språk, datorer och textbehandling

Svensk nationell datatjänst, SND BAS Online

Pedagogisk planering för ämnet: Svenska

Handledning och checklista för klarspråk

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Utvärdering av automatiska omskrivningar Från både en objektiv och en subjektiv synvinkel

Introduktion till språkteknologi. Datorstöd för språkgranskning

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

RoboLinguistics. Ett textförståelseprogram. Henrik Palmér, d01hp

Frasstrukturgrammatik

Svenska Läsa

Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg

Fly me to the moon. Laboration om relationer, TDDC75 Diskreta strukturer. Mikael Asplund. 5 september 2017

Kamratbedömning. Fokusera på följande:

Linköpings universitet

Grammatisk teori III Praktisk analys

Analys av BI-system och utveckling av BIapplikationer

Kommentarer till bedömningsmatris för Tala Kurs D

Lättläst lätt att läsa eller lätt att skriva? Camilla Forsberg

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator

Kommentarer till bedömningsmatris för Tala Kurs D

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Korpuslingvistik vt 2007

Regler för grupparbeten, inlämnings- och laborationsuppgifter

Diginto. Administration av nätverks- och serverutrustning. Gonzalo Rivera

Riktlinjer för bedömning av examensarbeten

Språk, datorer och textbehandling

Här är två korta exempel på situationer då vi tillämpar den distributiva lagen:

Transkript:

Linköpings universitet Kognitionsvetenskap Instutitionen för datavetenskap Kandidatuppsats 15 ECTS CogFLUX Grunden till ett automatiskt textförenklingssystem för svenska Författare: Jonas Rybing Christian Smith Handledare: Annika Silvervarg LIU-IDA/KOGVET-G 09/011 SE 31 augusti 2010

Sammanfattning En stor del av den svenska befolkningen har svårigheter att läsa en hel del texter på svenska, t ex myndighetstexter, nyheter men även skönlitteratur. Detta innebär att många inte har samma tillgång till information via det skrivna mediet som övrig allmänhet erbjuds. Komplicerade texter har visat sig besitta en avancerad syntax som försämrar läsbarheten. Manuell bearbetning av texter vid syntaxförenkling är en tidskrävande process och ett automatiserat tillvägagångssätt är önskvärt. I syfte att undersöka huruvida ett verktyg som automatiserar förenklingsprocessen är möjlig med dagens teknik togs verktyget CogFLUX fram. CogFLUX kan ses som en verktygslåda för vidare utveckling, som i dagsläget framförallt analyserar texter syntaktiskt och applicerar syntaktiska omskrivningsregler på frasnivå. Omskrivningsreglerna är sedan tidigare framtagna av Anna Decker vid Stockholms universitet. Utvärderingstexternas läsbarhet utvärderades med tre olika mått på läsbarhet; LIX, Nominalkvot och Lexikal variation, före och efter den syntaktiska förenklingen. Resultaten jämfördes sedan med manuellt förenklade texter inom samma genre. Resultaten av utvärderingen visar att vissa värden hos texterna kan förknippas med bättre läsbarhet efter CogFLUX:s bearbetning. Huruvida resultaten av förenklingen och utvärderingsmåtten visar på att texten blir mer lättläst diskuteras, då dessa ytliga mått har sina begränsningar och texterna ofta visade sig bli fragmentariska. Det kan konstateras att det med dagens resurser är möjligt att automatiskt applicera syntaktiska textomskrivningsregler på frasnivå. Tillsammans med ytterligare metoder för bearbetning av en texts syntax och dess semantik ses möjligheter för ett framtida robust verktyg som automatiskt gör texter lättlästa.

ii

Förord Vårt projekt kom att bli ett praktiskt utförande av Anna Deckers tidigare arbete, utan vilket detta hade detta arbete inte varit möjligt. Från Göteborgs Unviversitet kallades Katarina Mühlenbock in för att ge oss vägledning inom området, utvärderingstips, källtips och stöd. Lars Borin fick på avstånd vara till stor hjälp med licenser och resurser. På hemmaplan såg Arne Jönsson med sin rika entusiasm och uppmuntrande ord till att alla kom igång från start. Vår handledare Annika Silvervarg korrekturläste och gav tips på rapportutförande, inspirerande möten och exemplarisk handledning. Utan henne hade denna rapport varit än mindre lättläst. Stort tack till er alla! iii

iv

Innehåll 1 Inledning 1 1.1 Syfte och mål............................ 2 1.2 Översikt............................... 2 2 Teoribakgrund 5 2.1 Vad är lättläst text?........................ 5 2.2 Mått på läsbarhet......................... 8 2.2.1 Läsbarhetsindex...................... 8 2.2.2 Nominalkvot........................ 9 2.2.3 Lexikalvariation....................... 9 2.3 Automatisk textförenkling..................... 9 2.3.1 Automatisk textförenkling på engelska.......... 10 2.3.2 Automatiskt textförenkling på svenska.......... 11 3 Språkteknologiska resurser 15 3.1 Språkteknologi för textbehandling................ 15 3.2 MaltParser............................. 16 3.3 Granska Tagger........................... 17 3.4 Trädbankar och korpusar..................... 17 4 Problem och utmaningar 19 4.1 Probleminventering......................... 19 v

4.2 Angreppssätt............................ 20 4.3 Avgränsningar............................ 21 5 CogFLUX 23 5.1 Systemdesign............................ 23 5.2 Förenklingsprocessen........................ 24 5.2.1 PreProcessor........................ 25 5.2.2 TransformationsProcessor................. 27 5.2.3 PostProcessor........................ 30 6 Utvärdering 33 6.1 Automatisk förenkling....................... 33 6.2 Manuell förenkling......................... 35 7 Slutsatser och framtida arbete 37 7.1 Går det att applicera syntaktiska omskrivningsregler?..... 37 7.2 Är omskrivningsreglerna tillräckliga för att bidra till en texts förenkling?............................. 38 7.3 Påverkar textgenre omskrivningsreglernas prestation?...... 40 7.4 Framtida utveckling........................ 40 vi

Tabeller 6.1 Värden för automatiskt förenklade texter............ 34 6.2 Värden för manuellt förenklade texter i jämförelse med automatiskt genererade texter....................... 35 vii

viii

Figurer 2.1 Riktlinjer för lättläst text..................... 7 2.2 Formel för LIX........................... 8 2.3 Formel för nominalkvot...................... 9 2.4 Formel för lexikalvariation..................... 9 4.1 Angreppssätt sp........................... 20 5.1 Systemdesign för CogFLUX................... 24 ix

x

Kapitel 1 Inledning I Sverige har uppskattningsvis 25 % av den vuxna befolkningen problem med att läsa på grundskolenivå [22]. Vidare uppskattas det att ungefär 400 000 vuxna svenskar läser så dåligt att de enbart kan utvinna information ur mycket enkla och välstrukturerade texter [18]. Detta medför att de har svårt att ta till sig av den stora mängd information som finns i det skrivna mediet; tidningar, Internet, officiella dokument och så vidare. Kraven som ställs på läskunnighet ökar även de kontinuerligt, vilket betyder att många som ansågs läskunniga för en eller ett par generationer sedan inte behöver anses vara det i dagsläget [22]. Att inte ha möjlighet att ta del av all denna information, som ofta enbart finns tillgänglig i det skrivna formatet, gör det svårare att interagera i dagens samhälle. Därför är det viktigt att tidningstexter, skönlitteratur, myndighetstexter och andra officiella handlingar finns tillgängliga i ett format som är mer lättläst för personer med nedsatt läsförståelse. För att lösa detta problem behövs en metod för att förenkla texter automatiskt, då manuell förenkling är extremt resurskrävande i form av tid och personal. En dators styrka sitter i förmågan att snabbt utföra enorma mängder av enkla beräkningar. Att representera textförenklingsprocessen i form av handlingsregler som kan brytas ned i mängder av små beräkningar medför att en dator kan användas för att automatiskt förenkla texter. På så vis kan stora mängder av text förenklas på kort tid och göras tillgänglig för personer med lässvårigheter. Med hjälp av ett stabilt och precist automatiskt verktyg skulle denna målgrupp få tillgå stor mängd lättläst information, något som det i dagsläget är brist på. Utifrån den här grunden presenterar denna uppsats inledningen till ett försök att automatiskt förenkla text med hjälp av befintliga språkteknologiska tekniker. 1

1.1 Syfte och mål Huvudsyftet med projektet var att skapa ett verktyg, CogFLUX, som automatiskt kan förenkla texter baserat på syntaktiska omskrivningsregler. De förslag på syntaktiska omskrivningsregler som verktyget använde har sammanställts i ett tidigare arbete av Anna Decker på Stockholms Universitet, se avsnitt 2.3.2. Ett mål är att verktyget ska vara modulariserat med olika verktyg för analys och bearbetning av texter. Modularisering möjliggör att funktionaliteten kontinuerligt kan förbättras genom vidare utveckling av nya moduler som tillämpar nya metoder och strategier för textförenkling. I denna modularisering ingår det också att verktygets resurser, som till exempel de generella syntaxomskrivningsreglerna, ska ligga distribuerade över externa filer. I ett sådant system kan prestanda enkelt förbättras genom att exempelvis applicera en ny uppsättning syntaktiska regler. Verktyget kan ses som en verktygslåda för experiment med textförenklingar, på så vis kan det förhoppningsvis också bidra med förståelse, nya tankar och ideér kring vad begreppet lättläst egentligen innebär. De frågeställningar som detta arbete syftar till att besvara är: I vilken utsträckning går det att automatiskt applicera syntaktiska omskrivningsregler med de språkteknologiska metoder och verktyg för textanalys som finns tillgängliga i dagsläget? Är de syntaktiska omskrivningsreglerna tillräckligt generella och applicerbara för att bidra till en texts förenkling? Till vilken grad är de syntaktiska omskrivningsreglerna generella med avseende på textgenre? Med andra ord; varierar CogFLUX prestation inom olika textgenrers? 1.2 Översikt Kapitel 2 presenterar en teoretisk bakgrund över området. Kapitlet beskriver och reder ut relevanta termer, teorier samt presenterar tidigare arbete inom området. Som en fortsättning på kapitel 2 ger kapitel 3 en kort introduktion till befintliga språkteknologiska resurser som används av CogFLUX vid textförenklingsprocessen. Kapitlet beskriver kortfattat området språkteknologi och dess för rapporten relevanta termer. Kapitel 4 sammanställer de övergripande problem som arbetet bemöter och hur de har avgränsats för att göra uppgiften realistisk inom tidsramarna. Kapitplet redogör och för det angreppssätt som har valts för att uppnå syften och mål. 2

I kapitel 5 presenteras själva verktyget CogFLUX i detalj. Kapitlet inleds med en beskrivning av CogFLUX:s övergripande systemdesign som visar hur CogFLUX är uppbyggt. Kapitlet och avslutas med ett exempel på hur en text transformeras vartefter den passerar genom CogFLUX:s olika moduler. Utvärderingsresultat i form av applicering av automatiska utvärderingsmått på auomatiskt förenklade texter presenteras i kapitel 6. Utvärderingen tar även upp en korpus med manuellt förenkladade svenska texter och jämför resultaten från CogFLUX med dessa. I rapportens avrundning, kapitel 7, förs en diskussion kring frågeställningarna och de resultat som CogFLUX genererat. Författarnas slutsatser och förslag på framtida utveckling av CogFLUX presenteras också i kapitlet. 3

4

Kapitel 2 Teoribakgrund Detta kapitel redogör för den teoretiska bakgrund och de tidigare arbeten som ligger till grund för rapporten. Kapitlet visar på svårigheter med att klassificera vad som egentligen är en lättläst text och hur lättlästhet kan mätas. 2.1 Vad är lättläst text? Det är svårt att definiera vad en lättläst text egentligen är, vad det är som utgör en texts läsbarhet. Det verkar finnas viss subjektivitet i vad som egentligen kan anses vara lättläst. Vissa lingvister anser att en text kan förenklas genom att reducera den syntaktiska svårighetsgraden genom att exempelvis ta bort redundant information eller genom att konvertera texten till aktiv form. Nedan visas ett konkret exempel på reduktion av redundant information samt konvertering till aktiv form av verbet i meningen. 1. Bilen som saknade en vindrutetorkare kördes av den stora mannen 2. Mannen körde bilen Huruvida om att bilen saknade en vindrutetorkare och att mannen är stor är redundant information kan diskuteras, men det visar klart tanken med syntaktisk förenkling. Andra argumenterar för att texter kan förenklas genom att lägga till mer information, genom att förklara komplicerade termer eller genom att ersätta svåra ord med enklare synonymer [16]. En lättläst text förknippas ofta med en kort text, men detta är inte nödvändigtvis sant då det kan tänkas att en text 5

konverterad till ett lättläst format kan bli längre än dess originalform, då komplicerade och komprimerade uttryck skrivs om. Björnsson (1969) definierar begreppet läsbarhet som A measure of the lexical and syntactic complexity of a text, which makes it more or less accessible to the reader [16]. Förenklad text används inom flera skilda kontexter som exempelvis att kommunicera med personer som lär sig ett nytt språk, kommunikation med barn, inom telegram eller inom kontrollerade domänspråk. Textförenklingar har varierande innebörd inom de olika kontexterna. Det är exempelvis stor skillnad på de förenklade texter som används inom barnböcker och de som används i ett sms. Inom barnbokskontexten är språket lätt, välskrivet och enkelt att förstå. Inom smskontexten är språket däremot kortfattat och fyllt med förkortade uttryck. Trots de uppenbara skillnaderna mellan texterna kan båda anses vara förenklingar. Den forskning som har gjorts på förenklad svenska har varit marginell och de allra flesta av studierna har bedrivits på skolbokstexter, eller på personer med läs- och skrivsvårigheter [16]. I Sverige finns det en stiftelse som heter LLstiftelsen som är en organisation som består av Centrum för lättläst (CFL), som är ett resurs- och kompetenscenter, samt LL-förlaget vilket är Sveriges största publicerare av lättlästa böcker. LL-stiftelsen arbetar i första hand med att göra texter läsbara för personer i samhället som har en form av skada eller sjukdom som leder till lässvårigheter. CFL arbetar på statligt uppdrag och är statligt finansierade för sitt arbete. En stor del av detta arbete går ut på att förenkla material som myndighetstexter och samhällsinformation. CFL ger även ut en lättläst tidning som heter 8 SIDOR, en tidning som riktar sig till de som har svenska som andraspråk. Utifrån erfarenheterna CFL har samlat efter att ha arbetat inom området har de sammanställt generella riktlinjer för hur en lättläst text bör utformas. Riktlinjerna inkluderar direkta regler för hur man ska skriva lättläst, men även regler för hur man bör skriva för läsare med språkskador. De har även regler för hur en text ska struktureras upp för att underlätta förståelsen av den, exempelvis bör en ny mening börja på en ny rad. Nedan presenteras de riktlinjer som används inom de lättlästa texter som LL-stiftelsen gör [16]: 6

Skriv kort. Ha något att säga läsaren - säg det - säg inget mer. Vissa läsare har svårt att skilja på vad som är förgrundsinformation och vad som är bakgrundsinformation i texten. Skriv från början till slutet. Händelser i texten ska följa kronologisk ordning utan att hoppa fram och tillbaka. Skriv med enkla ord. Skriv inte ord som är svåra att förstå ur varken morfologiskt, etymologiskt eller symboliskt synsätt. Ersätt det svåra ordet med en enklare och vanligare synonym, om du fortfarande behöver använda det svåra ordet förklara det. Skriv utan bildspråk. Beskriv saker så konkret som möjligt. Undvik klichéer. Många läsare tolkar texten bokstavligt. Skriv misstänksamt. Metaforer och liknelser kan ha en konkret såväl som en abstrakt betydelse. Skriv samma ord. Variera inte ordförrådet. Läsaren kanske inte förstår korsrefererande uttryck. Skriv utan onödiga siffror. Många läsare saknar den intuitiva känslan för nummer och mått. om du behöver skriva nummer - förklara och gör det konkret. Skriv utan tidsuttryck. Många läsare gör enbart skillnad på nu och då. Skriv direkt. Gör inga implikationer. Skriv på aktiv form. Skriv vem gör vad istället för vem gjorde vad mot vem eller vad gjordes av vem. Skriv huvudsatser. Använd så få bisatser som möjligt. Figur 2.1: Riktlinjer för lättläst text, översättning från Anna Decker [16] 7

2.2 Mått på läsbarhet Det finns en mängd metoder att mäta läsbarhet med, men få av dem använder sig strikt av matematiska formler som skapar ett kvantitativt lätt mätbart värde. Fördelen med beräkningsbara kvantitativa värden är att de snabbt och enkelt kan automatgenereras för att ge en indikation på hur lättläst en viss text är [3, 10]. Därför är de väl lämpade för att utvärdera och jämföra en mängd automatiskt genererade lättlästa texter med en guldstandard framtagen av lingvister eller med varandra. Formler räknar ofta på variabler som antal ord, längd på meningar etc. De formler som använts i denna studie är läsbarhetsindex, nominalkvot och lexikal variation. 2.2.1 Läsbarhetsindex Läsbarhetsindex (LIX) är den mest använda formeln för att beräkna svenska texters läsbarhet [16]. LIX utvecklades på slutet av 60-talet av C-H Björnsson och skulle användas inom skolsystemet för att bestämma litteratur till de olika årskurserna. För att beräkna läsbarheten på en text använder sig LIX av tre variabler från texten; antal ord, antal långa ord och antal meningar. Antalet ord är helt enkelt totala antalet ord i texten, långa ord definieras som ord som innehåller minst sex tecken. Eftersom LIX bara mäter en texts ytliga egenskaper ska det användas försiktigt. Ett lågt LIX-värde måste inte betyda lättläst, med det korrelerar ofta med upplevd läsbarhet och är därför ett användbart mått på läsbarhet [3]. Formeln för att beräkna LIX-värdet på en text ser ut som följer: LIX = Antal(ord) Antal(lȧnga ord) Antal(meningar) + Antal(ord) 100 Figur 2.2: Formel för LIX LIX-värdet hamner vanligtvis inom intervallet 20-60 och mäts enbart i heltal. En generell tolkning av LIX-värdet ger följande fem kategorier [4]: Väldigt enkel text: 25 Enkel text: 35 Vanlig text: 45 Svår text: 55 Väldigt svår text: 65 8

2.2.2 Nominalkvot Hur tät packad informationen är i en text brukar mätas med Nominalkvot. Enkel nominalkvot beräknas genom att dividera antalet förekommande substantiv i texten med antalet förekommande verb [20, 21]. Normalvärdet för nominalkvot är 1,0 vilket är den ungefärliga nivå som morgontidningar och läroböcker ligger på. I formeln, som presenteras i figur 2.3, förlängs värdet med en faktor 100, vilket betyder att normalvärdet blir 100 istället för 1,0. Ett högre värde än normalvärdet innebär att texten är informationstät och därför mer svårläst [27]. En hög nominalkvot tyder på en mer professionell, skriftspråkligt utvecklad text, en låg kvot tyder på ett enklare och mer talspråksliknande skriftspråk och anses därför mer lättläst. En låg nominalkvot kan också i vissa sammanhang tyda på en mer berättande än diskursiv texttyp [21]. Formel för att beräkna nominalkvot: Nominalkvot = Antal(nomen+prepositioner+verbparticip) Antal(pronomen+adverb+verb) 100 Figur 2.3: Formel för nominalkvot 2.2.3 Lexikalvariation Lexikalvariation eller ordvariationsindex (OVIX) är ett mått på hur stor variation det är på unika ord inom texten i förhållande till det totala antalet ord i texten. En stor variation ger ett högt OVIX-värde och texter med högt OVIXvärde anses vara mer svårläst än texter med ett lågt OVIX-värde [20, 23]. Att låg variation på orden i en text gör den mer lättläst kan även kopplas till CFLs riktlinjer som presenterdes i figur 2.1. Formel för att beräkna OVIX: OV IX = Antal(unika ord) Alla ord 100 Figur 2.4: Formel för lexikalvariation 2.3 Automatisk textförenkling Automatisk textförenkling är processen där text skrivs om till en mer lättläst version av ett system eller ett program, helt utan mänsklig inblandning under 9

själva förenklingsprocessen. Automatisk textförenkling är ett område som inom det engelska språket fått en hel den uppmärksamhet från mitten av 90-talet. Området är relativt ungt och outforskat då den första forskningsrapporten publicerades under 90-talets mitt [11]. System för automatisk textförenkling i dagsläget är alla baserade på ett slags transformationssystem. Med transformationssystem menas att det är ett system som tar in data (input) för att sedan manipulera dessa data baserat på vissa transformationsregler. Transformationsregler kan vara regler för att till exempel syntaktiskt strukturera om data, eller skära bort redundant information. Vad de flesta textförenklingssystem har gemensamt i dagsläget är målet att göra texten kortare [16]. Att en förenklad text alltid är kortare än dess original är dock en förenklad syn på området, textförenkling kan lika gärna göra en text längre genom att till exempel skriva om komplicerade termer eller textens syntax. Ett angreppssätt för att förenkla en text är att förenkla dess syntaktiska struktur. För att göra det behövs det en regelstruktur för hur en text syntaktiskt sett ska skrivas om för att den ska anses vara mer lättläst. Det finns en del olösta problem inom dagens state-of-the-art textförenklare [7, 8]. Ett problem är i vilken ordning de förenklade meningarna ska presenteras i för att bibehålla textens kvalitativa innehåll. Refererande uttryck ställer även till problem, vilket refererande uttryck förenklaren ska välja för att skriva ut pronomen. 2.3.1 Automatisk textförenkling på engelska Det finns en del system utvecklade för att förenkla text på engelska, till skillnad från på svenska. De som har varit de ledande och har bidragit med en mängd forskning inom fältet är Chandrasekar & Srinivas. [16]. De utvecklade bland annat ett domänoberoende, semi-automatiskt system för textförenkling baserat på de språkteknologier som fanns tillgängliga. Deras arbete är mest inriktat på att förenkla texter för att underlätta senare automatiskt parsning av texten, se avsnitt 3.1, då parsers ofta har stora problem med komplicerade texter [12, 11]. Förenklingsprocessen sker i två modulariserade steg; det första steget analyserar inputtexten för att finna beroenden mellan lexem och trädstrukturen, den andra modulen extraherar textkomponenter som kan förenklas och sedermera också förenklar dem. Systemet baseras liksom CogFLUX på syntaxomskrivningsregler på meningsnivå, de utvecklade även i ett senare arbete en metod för att automatiskt generera nya omskrivningsregler. Mark Dras har i sin doktorsavhandling tagit fram ett metod som han kallar Reluctant Paraphrasing [17]. Denna metod transformerar en mening från en form till en annan genom att applicera syntaktiska omskrivningsregler med målet att överflödig information ska gallras ur meningarna. Denna förenklingsmetod 10

är lik den metod som CogFLUX i dagsläget använder för att transformera meningar till en förenklad version. Användaren har kontroll över hur systemet ska förenkla texten, och därmed i vilken grad dessa omskrivningsregler appliceras. Det dokument som förenklas med denna metod krymper kontinuerligt i storlek vartefter mer information i meningarna gallras ur. Ett exempel som Dras ger på parafrasning av en mening är: LV + NP + inf-vp <-> V + inf-vp 1. Steve made an attempt to stop playing Hearts 2. Steve attempted to stop playing Hearts Ett annat system värt att nämna är PSet (Practical Simplification of English Text) [7, 8]. PSet är ett system som förenklar engelsk text, framförallt nyhetsartiklar, för personer som lider av afasi eller liknande lässvårigheter. PSet är indelat i två moduler; en analyseringsmodul och en förenklingsmodul som går under benämningen SYSTAR. SYSTAR hanterar olika språkteknologiska problem: anaforisk resolution, syntaxförenkling och anaforisk ersättning. Syntaxförenklingar som PSet gör är i form av konvertering av text i passiv form till aktiv form och konvertering av bisatser till nya meningar i form av huvudsatser (sentence splitting). PSet utför även lexikala förenklingar i form av synonymersättningar med hjälp av WordNet som är en stor lexikal databas för det engelska språket [24]. SYSTAR har visat att den kan förenkla en text syntaktiskt och behålla textens sammanhang och betydelsebärande enheter intakta, dock har inte hela systemet PSet utvärderats mot användare [16]. 2.3.2 Automatiskt textförenkling på svenska Det finns i dagsläget inget komplett system för automatiskt generera lättlästa texter på svenska. De lättlästa svenska texter som finns produceras manuellt av företag och myndigheter så som CFL. Det finns arbeten genomförda som har inlett bearbetning av problemet att automatiskt förenkla en text på svenska, två projekt presenteras nedan. Anna Deckers syntaktiska transformationsregler Anna Decker har undersökt om det finns generella regler för hur en menings syntax förändras då den skrivs om till en lättläst version. För att avgöra hur omskrivningsregler för automatisk textförenkling på svenska skulle kunna utformas granskade Decker manuellt förenklade texter på frasnivå. De manuellt förenklade texterna visade sig vara flyktiga och svåra att formalisera, med tanke 11

på de svårigheter som finns i samband med att definiera vad som egentligen är lättläst. Decker lyckades dock med att extrahera och formalisera 25 syntaktiskt transformationsregler, som hädanefter kommer refereras till som omskrivningsregler. Reglerna är utformade så att de ska passa ett system för automatisk förenkling av text. De data som Decker studerade hämtades från en nyhetstidning som heter Invandrartidningen, en tidning riktad till människor med svenska som andraspråk. Invandrartidningens syfte var att vara invandrares förstahandsval gällande nyhetstidningar. Invandrartidningen gavs även ut på sju andra språk förutom svenska. Först skrevs alla artiklarna på standardsvenska och de översattes sedan till de andra språken vilka trycktes upp och såldes. Efter det skrevs även en svensk lättläst version av artiklarna, dessa gavs ut som en annan tidning under namnet På lätt svenska. De lättlästa artiklarna skrevs av personer som arbetar på redaktionen, personer utan akademisk bakgrund som översättare eller lingvister. Textförenklingarna som utfördes baserades på vissa av reglerna som CFL har tagit fram, samt tumregler redaktionen själva utvecklat vartefter de arbetat med att skriva lättlästa texter. Eftersom Invandrartidningen och På lätt svenska är nyhetstidningar är de extraherade syntaxomskrivningsreglerna resultatet av generella mönster som kan sägas utmärka en lättläst nyhetstext, vidare diskussion kring detta i kapitel 7. Decker beräknade LIX-värdet för både den svenska versionen av Invandrartidningen som fick värdet 38, och för På lätt svenska som fick värdet 33. Värdena klassas som mellan lättläst och genomsnittlig text utifrån LIX-standarden, då lättläst har värdet 30 och genomsnittlig text har värdet 40 [4]. Artiklarna i Invandrartidningen och På lätt svenska skrevs även i tre olika versioner, väldigt lätt, lätt och inte så lätt. LIX-värdena för de olika svårighetsgraderna varierade relativt kraftigt, den lättaste versionen i På lätt svenska fick ett värde på 25 och den inte så lätta versionen fick ett LIX på 42. Efter att ha normaliserat och korrigerat formateringen på artiklarna kunde de manuellt ordklasstaggas och parsas på frasnivå. Genom att jämföra den lättlästa artikeln från På lätt svenska med originalartiklarna ur Invandrartidningen identifierade Decker förenklingspar. Ett förenklingspar är en käll- och en målfras med samma innebörd och där målfrasen kan anses vara en förenkling av källfrasen. Förenklingsparen varierade i sin form, ibland togs data bort, ibland hade mer lagts till och så vidare. Totalt identifierades 467 förenklingspar. Förenklingsparen kategoriserades enligt Svenska akademiens grammatik [30] och analyserades. Utifrån detta sammanställdes de 25 syntaktiskt omskrivningsreglerna på frasnivå vilket är Deckers resultat. Ett exempel på en omskrivningsregel är: np(det+ap+n) > np(n). Vad denna regel innebär är att en nomenfras som består av en determinator, en adjektivfras och ett nomen ska skrivas om till att bara innehålla ett nomen, förslagsvis samma nomen för att bibehålla den semantiska innebörden. 12

Viktigt att notera är att Decker även identifierade flera förenklingar på överfrasnivå, exempelvis förenklingar som skifte i ordposition mellan meningar. Även generella omstruktureringar av texten hamnar över frasnivå, men denna typ av förenkling bortses från i Deckers och i denna studie. SkrivLätt Davidsson et al (2002) undersökte möjligheterna att utveckla ett datoriserat hjälpmedel för framställning av lättlästa texter och utvecklade en datorbaserad prototyp av ett hjälpmedel som framställer lättlästa texter utifrån originaltexter [15]. Programmet integrerades med Microsoft Word och försågs med ett gränssnitt som ger förslag på områden i texten som anses svårlästa. De svårlästa partierna identifierades bland annat genom en syntaktisk analys gjord av Conexors parser FDG följande vissa riktlinjer som angivits på Centrum För Lättläst. Andra riktlinjer som följdes inkluderar utskrivning av förkortningar, sparsamt användande av versaler samt ändring av verbform från passiv till aktiv. Programmet baserades dels på CFL s riktlinjer, men också på intervjuer gjorde på anställda hos CFL och manuella analyser av lättlästa texter. Därefter jämfördes de av SkrivLätt framställda lättlästa texterna med riktlinjerna som tagits fram av CFL, varpå det konstateras att riktlinjerna verkar efterlevas och att det rent av fås plats med nya riktlinjer såsom att dela upp långa stycken, lägga till fler rubriker, samt att hålla relativsatser korta. I SkrivLätt görs en skillnad på hur långa respektive korta texter behandlas. Långa texter anses skrivas om helt och hållet medan korta texter bearbetas mening för mening och ibland ord för ord. Det fokuseras i SkrivLätt på korta texter. Vissa partier har gått bra att identifiera som svåra och få dem omskrivna till lätta, i andra fall har det dock inte gått att ge förslag på förenklingar utan endast visat på att ett parti kan vara svårläst. SkrivLätt får då fungera som en indikation och gör författaren uppmärksam på en svårläst struktur utan att genomföra förenklingen på egen hand. Problem som påträffades i arbetet innefattar en avsaknad av hantering av semantisk information, något som i många fall verkar krävas för en fullgod analys, tillräcklig för automatisk producering av lättlästa texter av mänsklig kvalitet. Det nämns också att olika målgrupper kan ha olika behov av lättlästhet och att texterna riskerar att bli barnsligt lätta. 13

14

Kapitel 3 Språkteknologiska resurser I detta kapitel presenteras språkteknologiska resurser som är för CogFLUX nödvändiga för att utföra textförenklingar. Resurserna inkluderar verktyg för parsing, ordklasstaggning samt korpusar. Resurserna ligger externt från resten av CogFLUX. 3.1 Språkteknologi för textbehandling En text kan vara ett eller flera manuellt producerade dokument bestående av maskinläsbar text bestående av ett antal ord fördelade på meningar. Texterna innehar vissa strukturer gällande för språket under vilket de blev producerade, strukturer som är viktiga för vår kognitiva bearbetning av dem. En text består ur ett språkteknologiskt synsett av en samling tokens. En token är en enhet i texten, ord är den vanligaste typen av token men även interpunktion som punkter och utropstecken kan räknas som tokens. Språkteknologiska system ämnar att automatiskt behandla maskinläsbar text på ett eller flera sätt, vanligen med flera delproblem som behöver lösas under processen. Ett par delproblem är ordklasstaggning och parsing. Vid ordklasstaggning blir varje token i en text tilldelad en uppmärkning, en tagg som visar på dess syntaktiska egenskaper, till exempel substantiv, adjektiv och verb. Olika system finns för taggning och antalet möjliga taggar varierar från ett dussintal till hundratals. Två problem är förenade med automatisk ordklasstaggning; hitta möjliga taggar för varje ord och att välja mellan flera möjliga taggar (som exempel kan ordet springa både vara substantiv eller verb). State-of-theart -taggare klarar att korrekt tagga över 97% av orden i en text på svenska [9]. 15

Under parsingen analyseras texten automatiskt varpå dess syntaktiska struktur annoteras, där en menings mindre delar(fraser) kategoriseras till nomnialfraser, verbfraser et cetera [25]. Parsning förekommer vidare i olika former, däribland grund ( shallow ) och djup ( deep ) parsning. Vid grund parsning (även kallat chunkning) identifieras beståndsdelar såsom substantivgrupper, verb och verbgrupper medan det vid djup parsning identifieras fraser och beståndsdelarnas roll i meningen. I meningen En man såg flickan med en kikare skulle en grund parsning identifiera delar såsom En man och en kikare utan att bry sig om vem som har gjort vad. En djup parse skulle däremot fånga in skillnaden av betydelsen av meningen som en man såg en flicka som innehade en kikare och en man använde en kikare för at titta på flickan. Olika metoder för parsing förekommer också, till exempel frasstrukturparsing, där orden i en mening kopplas samman i en hierarkisk struktur med avseende på ordklass. Dependensparsing är ett annat exempel där orden kopplas samman i binära relationer och visar på roller som subjekt och objekt, vem som gjorde vad. Parsning tillsammans med ordklasstaggning är två grundläggande operationer för att analysera en text på det syntaktiska planet. 3.2 MaltParser Ett system för att parsa texter är MaltParser. MaltParser är ett system för datadriven dependensparsning utvecklad vid Växjö Universitet av Johan Hall, Jens Nilsson och Joakim Nivre. MaltParser kan användas för att inducera en parsing-modell från taggad trädbanksdata och för att parsa ny data baserat på den inducerade modellen. Trädbanksdatan är taggad med både frasstruktur och grammatiska funktioner. Frasstrukturinformationen transformeras till en dependensrepresentation som sedan kan användas för att inducera en modell med vilken frasstrukturen hos en text kan återfås, tillsammans med de förekommande grammatiska funktionerna. MaltParser är baserad på SVM (Support Vector Machines), en teknik för att klassificera data, eller mer specifikt LIBSVM, A Library for Support Vector Machines[14]. MaltParsern har en relativt bra prestanda, med en F1-score på över 75, över 80 beroende på vilken korpus som används som indata. F1-score är ett mått på exakthet (eng. accuracy) som tar hänsyn till precision (graden av korrekt parsade meningar) och recall (antal korrekt parsade meningar). 16

3.3 Granska Tagger Granska tagger [9] använder sig av Hidden Markov Models för att välja ut korrekt ordklass. Hänsyn tas till hur ordet är uppbyggt, till exempel om det börjar med stor bokstav så är det troligen ett namn och hur ordets ändelse kan indikera på en viss ordklass. En simpel algoritm för identifiering av sammansatta ord är också implementerat i Granska tagger. Granska klarar av att korrekt tagga 92% av för den okända ord, och 97 % korrekt av kända ord. Med kända ord menas ord som Granska har i sitt lexikon. Förutom att tagga upp text med ordklasser klarar även Granska av att identifiera ett ords lemmaform. Lemmaform är en lingvistisk term för ett ords grundform, exempelvis gick har lemmat gå och cyklarna har lemmat cykel. 3.4 Trädbankar och korpusar För att träna parsern, det vill säga skapa en modell att använda vid parsning, krävs en befintlig taggad trädbank; en korpus där varje mening har fått en syntaktisk analys[1]. I projektet användes Svensk Trädbank[5] som egentligen består av två olika korpusar; SUC[19] och Talbanken05[26]. SUC (Stockholm Umeå Corpus) är en morfosyntaktiskt analyserad (försedd med ordklassetiketter och grundformer på alla korpusens ord) balanserad korpus över publicerat svenskt skriftspråk från 1990-talet. Talbanken är en korpus med svenskt skriftspråk och transkriberat talspråk från 1970-talet. Dessa två korpusar utgör alltså tillsammans i en harmoniserad version Svensk trädbank som distribueras av Språkbanken[5]. Vidare andvändes ett lexikon 1 med ord och taggar till Granska tagger för att ordklasstagga texten. Lexikonet med förkortningar hämtades från Svenska Akademiens Ordlista [29]. 1 http://www.csc.kth.se/tcs/humanlang/tools.html 17

18

Kapitel 4 Problem och utmaningar Det här kapitlet tar upp generella problem som är kopplade till automatisk textförenkling. Det angreppssätt som använts för att uppnå de olika delmålen och syftet med projektet följer probleminventeringen. Utifrån identifierade problem tar kapitlet upp de avgränsningar som dragits för att göra arbetet genomförbart inom tidsramarna. 4.1 Probleminventering Ett givet problem är att identifiera vad i en texts syntax som gör det svårläst respektive lättläst. Metoder för att analysera texten syntaktiskt innefattar ordklasstaggning och parsing vilka innebär flera existerande problem inom språkteknologi. Exempel på problem är härledning av vad ett pronomen som han eller hon refererar till (anaforisk referens) eller namnigenkänning (Named Enitity Recognition). De problemen åsidosätts för framtida utveckling och tas inte upp vidare i denna rapport. Andra problem som rör förenkling av syntax på frasnivå genom användning av på förhand bestämda omskrivningsregler är att en fras kan ha flera möjliga förenklingar. Som exempel beakta den korta meningen Den gröna bilen, här kan tänkas två möjliga omskrivningsregler som leder till två separata resultat; Den bilen eller Gröna bilen. Önskvärt vore någon form av sofistikerat rankningssystem som avgör vilken regel ger bäst resultat. En fras vars syntax har identifierats som svår kanske inte heller kan förenklas på ett konsekvent sätt utan att förlora dess informationsbärande egenskaper, något som kan göra texten mer svårläst. Även här skulle rankningssystemet kunna avgöra huruvida en förenkling är önskvärd eller inte. 19

Ett givet problem som uppstår förr eller senare är vad som överhuvudtaget konstituerar en lättläst text och till vilken grad en text kan avgöras vara mer eller mindre lättläst efter applicerade omskrivningsregler; hur omskrivningen ska utvärderas. 4.2 Angreppssätt Utanför systemutvecklingen har projektet innefattat arbete med korpus, implementation av omskrivningsregler och utvärdering, se figur 4.1. Figur 4.1: Angreppssätt sp. Korpusarbetet innebar till största del identifiering av en korpus innehållande rätt material med rätt annotation för syftet, samt viss anpassning av format mellan delar i systemet för att passa notationen i korpusen. Korpusar tillhandahölls av Språkbanken [5]. Med identifierade problem i åtanke resulterade arbetet i ett verktyg som kan ses som ett ramverk för vidare arbete med ett textförenklingssystem. Verktyget bygger på ett modulariserat system där varje modul kapslar in en eller flera funktioner såsom ordklasstaggning, parsing eller omskrivningsregler. Den valda arkitekturen ska vidare möjliggöra olika kombinationer av moduler för experimentation med funktionalitet. Anna Deckers omskrivnignsregler granskades och implementerades i så stor utsträckning som var möjligt, en process som låg väldigt nära systemutvecklingen. För att hantera reglera skapades ett scriptspråk, X-rules, specialiserat för just denna typ av regler. 20

Som utvärdering användes verktyget för att förenkla texter av tre olika genrers; skönlitteratur (50 %), myndighetstexter (25 %) och nyhetstexter (25 %), med hjälp av implementerade omskrivningsregler. Texterna var av varierande storlek; sammanlagt rörde det sig om ca 100 000 ord. De förenklade texterna utvärderades sedan med tre olika mått; LIX, nominalkvot och lexikal variation, se avsnitt 2.2. 4.3 Avgränsningar Eftersom ett automatiserat verktyg för textförenkling är väldigt tekniskt avancerat och kan innehålla en mängd olika komponenter har detta projekt fokuserat på att bygga grunden till ett verktyg med fokus på enkel expansion. Verktyget är således inte designat för den slutgiltiga användaren och ett grafiskt gränssnitt har inte utvecklats. Verktyget arbetar på en mening i taget och hänsyn tas inte till relationer mellan meningar, endast syntaxen inom meningen. Algoritmen som utför de av omskrivningsreglerna identifierade förenklingarna tar inte hänsyn till om resultatet blir bättre eller sämre, den utför alla möjliga förenklingar som identifierats. Om olika förenklingar är möjliga på samma fras utförs samtliga istället för enbart den mest lämpade. I exemplet Den gröna bilen blir då resultatet efter förenklingarna bara bilen. Ytterliggare en avgränsning gällande omskrivningsreglerna är att bara de regler som syftar till att ta bort en hel eller delar av en fras implementerades. Vi utvärderar inte de riktlinjer för vad som gör en text lättläst utan förlitar oss på att de faktiskt är korrekta. Riktlinjerna i fråga är de som ligger till grund för de förenklade texter Anna Decker har använt för att sammanställa sina syntaktiska omskrivningsregler. Det pågår ett arbete med att utvärdera dessa riktlinjer och undersöka hur de relaterar till lättläst text. De förenklade texterna är inte anpassade för en viss målgrupp och därför tas inte några specifika behov hänsyn till vid utvärderingen. Förenklingarna utvärderas inte mot försökspersoner, utan med de automatiska mått på lättlästhet som tidigare presenterats. 21

22

Kapitel 5 CogFLUX Kapitlet inleds med en överblick över verktygen CogFLUX och övergår sedan i en demonstration av hur en text förenklas med CogFLUX. CogFLUX är ett ramverk för vidare utbyggnad med grundläggande funktionalitet för automatisk förenkling av texter. CogFLUX bygger på att funktionaliteten är fördelade över olika specialiserade delar som körs i en serie, där moduler som ska användas, textfil och vilka funktioner som ska utföras anges. 5.1 Systemdesign Funktionerna hos verktyget ligger fördelade över olika moduler med olika specialiserade funktioner (se figur5.1). Modulerna kapslas in av processorer baserat på funktionalitet, så moduler med liknande funktionalitet grupperas under samma processor. CogFLUX arbetar med en processor i taget och kör alla moduler i den ordning de är angivna. I inställningarna anges också vilken källa som skall köras. Vid körning sparar modulerna sedan resultaten i enskilda textfiler som sedan används av nästkommande moduler. Detta får till effekt att modulerna länkas ihop till en kedja som kan följas tillbaka till startpunkten då varje moduls resultat är sparat. Textfilerna är så långt det är möjligt formaterade enligt NEGRA-standard [6] förutom efter sista modulen där alla taggar tas bort och texten sammanställs. I figur 5.1 visas hur en text passerar genom de moduler och processorer som användes vid utvärderingen i kapitel 6. En mer djupgående demonstration över hur texten manipuleras i de olika modulerna följer i nästkommande avsnitt. 23

Figur 5.1: Systemdesign för CogFLUX Exempel på processorer inkluderar en PreProcessor som till exempel har moduler för ordklasstaggning och parsing av en text, medan en transformationsprocessor utför operationer på den taggade texten baserat på angivna regler, Decker och/eller förkortningsutskrivning. Reglerna anges i script som talar om vilka fraser och ordklasser som eftersöks för transformation. En PostProcessor kan sedan snygga till texten genom att ta bort taggar, dela in i stycken och så vidare. Verktyget har i dagsläget stöd för ordklasstaggning, dependensoch frasstrukturparsing, syntaktiska omskrivningsregler och abbreviationsexpandering. 5.2 Förenklingsprocessen För att ge en inblick i hur CogFLUX systematiskt bearbetar en text presenteras i detta avsnitt ett exempel som visar hur en mening färdas genom CogFLUX:s struktur. Exempelmeningen som valts liknar de meningar som finns med i utvärderingsmaterialet, men har modifierats för att bättre demonstrera varje moduls funktion och inverkan på texten. Exempelmeningen: Socialförsäkringen är t.ex. en viktig del av det svenska trygghetssystemet. 24

5.2.1 PreProcessor PreProcessorn och dess moduler har till uppgift att förbearbeta texten så en förenkling av den blir möjlig. Denna förbearbetning innefattar i dagsläget taggning av ordklasser och frasstruktur, eftersom omskrivningsreglerna är baserade på just detta. Vidare identifieras också ordens lemma-form. GranskaTagger För att ordklasstagga texten och för att identifiera lemma-former användes Granska tagger. Granska tagger och dess källkod finns tillgänglig på KTH. Text taggas enligt SUC-notationen [19] och innehåller information som tokenform (huruvida aktuell token är ett ord, en förkortning, interpunktion etc), ordklass och morfosyntaktisk information så som ägandeform, bestämd form, numerus och så vidare. Exempelmeningen: Socialförsäkringen [8 1 qs TOKEN_SIMPLE_WORD] nn.utr.sin.def.nom socialförsäkring är [115520 1 s TOKEN_SIMPLE_WORD] vb.prs.akt.kop vara t.ex. [4520 1 qs TOKEN_ABBREVIATION] ab t.ex. en [172802 1 fmbs TOKEN_SIMPLE_WORD] dt.utr.sin.ind en viktig [1300 1 bqs TOKEN_SIMPLE_WORD] jj.pos.utr.sin.ind.nom viktig del [6486 1 mbqs TOKEN_SIMPLE_WORD] nn.utr.sin.ind.nom.set del av [150041 1 ms TOKEN_SIMPLE_WORD] pp av det [147083 1 ms TOKEN_SIMPLE_WORD] dt.neu.sin.def den svenska [11720 1 mbqs TOKEN_SIMPLE_WORD] jj.pos.utr/neu.sin.def.nom svensk trygghetssystemet [4 1 qs TOKEN_SIMPLE_WORD] nn.neu.sin.def.nom trygghetssystemet. [722211 1 fs TOKEN_PERIOD] mad. NegraTagger NegraTaggern konverterar outputdatan från Granska till NEGRA-format [6]. Detta görs för att parsern ska klara av att parsa texten då den inte stödjer formatet som texten står i efter Granska taggern. Ordklass och morfosyntaktisk information förblir den samma. Nytt är dock BOS- och EOS-taggarna som indikerar var en mening börjar och slutar. Exempelmeningen: 25

#BOS 0 Socialförsäkringen socialförsäkring NN UTR SIN DEF NOM är vara VB PRS AKT KOP t.ex. t.ex. AB en en DT UTR SIN IND viktig viktig JJ POS UTR SIN IND NOM del del NN UTR SIN IND NOM SET av av PP det den DT NEU SIN DEF svenska svensk JJ POS UTR/NEU SIN DEF NOM trygghetssystemet trygghetssystemet NN NEU SIN DEF NOM.. MAD #EOS 0 MaltParser MaltParsermodulen är den modul som bygger upp alla meningars frasstrukturträd i texten. De två kolumnerna längst till höger som tidigare var tomma har nu fyllts på med information. Kolumnen längst till höger innehåller ett nummer, detta nummer är namnet på den direkt överliggande fras som ordet eller frasen tillhör. Exempelvis har ordet Socialförsäkringen 500 som överliggande fras, nedanför meningen står numren uppradade med information om vilken typ av fras det är, i detta fall en nomenfras (NP), samt vilken eventuell överordnad fras frasen tillhör. Exempelmeningen: 26

#BOS 1 Socialförsäkringen socialförsäkring NN UTR SIN DEF NOM HD 500 är vara VB PRS AKT KOP FV 507 t.ex. t.ex. AB HD 501 en en DT UTR SIN IND DT 506 viktig viktig JJ POS UTR SIN IND NOM HD 502 del del NN UTR SIN IND NOM SET HD 506 av av PP PR 505 det den DT NEU SIN DEF DT 504 svenska svensk JJ POS UTR/NEU SIN DEF NOM HD 503 trygghetssystemet trygghetssystemet NN NEU SIN DEF NOM HD 504.. MAD IP 507 #500 NP SS 507 #501 AVP CA 507 #502 AP AT 506 #503 AP AT 504 #504 NP PA 505 #505 PP ET 506 #506 NP OO 507 #507 S MS 0 #EOS 1 Som modulnamnet avslöjar används MaltParser som parser i denna modul. MaltParsern måste innan användning tränas på lämpligt träningsmatrial för att korrekt parsing ska möjliggöras. MaltParser tränades först på Svensk Trädbank för att skapa en parsing-modell. Denna modell användes sedan till parsing av textens frasstruktur, baserat på ordklasserna och lemma-formerna identifierade av Granska tagger. Efter parsingen är texten redo att förenklas. 5.2.2 TransformationsProcessor TransformationsProcessorns moduler skall identifiera möjliga förenklingar av en taggad text. I TransformationsProcessorn ska alla moduler som har med en texts förenkling ligga. SyntaxRegler SyntaxRegelmodulen identifierar möjliga förenklingar baserade på den uppsättning regler som angivits. Totalt implementerades 13 av Deckers totalt 25 identifierade omskrivningsregler(se avgränsningar 4.3). För att göra det så enkelt som möjligt att ange regler, ändra i regler, ta bort regler och införa nya regler skapades ett litet script-språk, X-rules. Reglerna anges var och en på en egen rad i scriptet enligt följande notation: 27

REPL//NP-DET JJ N-> NP-N P(S) DEL//NP-DET JJ N-> # P(NP) Regels första del, REPL// eller DEL//, anger vilken typ av regel det är, REPL betyder replace (ersätt) och DEL betyder delete (ta bort). Direkt efter regeltyp anges vilken typ av fras som ska manipuleras, målfrasen. I de två regelexemplen ovan är målfrasen en nomenfras bestående av en determinator, ett adjektiv och ett nomen (NP-DET JJ N). Direkt efter pilen (->) i regeln anges vad frasen ska ersättas med, ersättningsfrasen. Vid DEL ska naturligvis frasen inte ersättas med något utan helt tas bort, då brukar en # anges istället för en ersättningsfras. Vid REPL däremot ska målfrasen bytas ut mot en ersättningsfras, i första exempelregeln är ersättningsfrasen en nomenfras som enbart innehåller ett nomen (NP-N). Den sista delen av regeln kallas frasvilkor och anges med ett paragraftecken ( ) följt av vilket vilkor det rör sig om. I exemplen vilken typ över överordnad fras, förälderfras (P), som målfrasen måste ingå i. I första regelexemplet måste målfrasen ligga direkt under en satsfras ( P(S)), i andra regelexemplet direkt under en nomenfras ( P(NP)). Notera att denna modul inte utför dessa förenklingar som den med reglerna identifierar. Modulen taggar enbart upp vilka ord och fraser som en regel har gett förslag på att ta bort, vilket kan ses nedan i exempelmeningen (<DEL>0, <DEL>1 etc). Själva utförandet av regeln inträffar i en senare modul(se 5.2.3). Om flera regler vill manipulera samma fras taggas helt enkelt frasen flera gånger, på så sätt kan modulen som utföra ändringarna enkelt kontrollera hur många regler det är som vill manipulera frasen. Viktigt att belysa är att exempelreglerna ovan är endast i demonstrationssyfte, ej regler som användes vid utvärderingen. Totalt identifierades sju förenklingar i exempelmeningen. Exemeplmeningen: 28

#BOS 0 Socialförsäkringen socialförsäkring NN HD #500 är vara VB FV #507 t.ex. t.ex. AB HD #501 en en DT DT #506 <DEL>[4]viktig viktig JJ HD <DEL>[4]#502 del del NN HD #506 av av PP PR #505 <DEL>[3]<DEL>[1]det den DT DT <DEL>[6]#504 <DEL>[5]svenska svensk JJ HD <DEL>[5]<DEL>[3]<DEL>[2]<DEL>[0]#503 trygghetssystemet trygghetssystemet NN HD <DEL>[6]#504.. MAD IP #507 #0 ROOT ROOT #507 S MS #0 #500 NP SS #507 #501 AVP CA #507 #506 NP OO #507 <DEL>4#502 AP AT #506 #505 PP ET #506 <DEL>6#504 NP PA <DEL>6#505 <DEL>5<DEL>3<DEL>2<DEL>0#503 AP AT <DEL>6#504 #EOS 0 Abbreviationsutskrivning En simpel förkortningsutskrivningsmodul som läser in ett externt lexikon med förkortingar tillsammans med tillhörande utskrivningar och byter ut dem. Lexikonet innehåller 210 förkortningar hämtade från Svenska Akademiens Ordlista [29] och består till mestadels av vanliga ordspråksförkortningar liksom t.ex. eller osv, förutom det innehåller lexikonet även en uppsättning företag- och myndighetsförkortningar som FRA - Försvarets Radioanstalt. Nedan följer ett kort utdrag ur det lexikon som modulen använder: t.ex till exempel dvs. det vill säga Modulen söker efter de förkortningar som står listade till vänster i lexikonet, och ersätter den med de utskrivningar som står till höger i lexikonet. Exempelmeningen: 29

#BOS 0 Socialförsäkringen socialförsäkring NN HD #500 är vara VB FV #507 till exempel till exempel AB HD #501 en en DT DT #506 <DEL>[4]viktig viktig JJ HD <DEL>[4]#502 del del NN HD #506 av av PP PR #505 <DEL>[3]<DEL>[1]det den DT DT <DEL>[6]#504 <DEL>[5]svenska svensk JJ HD <DEL>[5]<DEL>[3]<DEL>[2]<DEL>[0]#503 trygghetssystemet trygghetssystemet NN HD <DEL>[6]#504.. MAD IP #507 #0 ROOT ROOT #507 S MS #0 #500 NP SS #507 #501 AVP CA #507 #506 NP OO #507 <DEL>4#502 AP AT #506 #505 PP ET #506 <DEL>6#504 NP PA <DEL>6#505 <DEL>5<DEL>3<DEL>2<DEL>0#503 AP AT <DEL>6#504 #EOS 0 5.2.3 PostProcessor PostProcessorn och dess moduler har som huvudsyfte att städa texten ren från taggar och återställa den i läsvänlig form. UtförSyntaxRegler Detta är modulen som utför de syntaxförenklingar som tidigare taggats upp av syntaxregelmodulen. I dagsläget utför modulet uteslutande alla upptaggade omskrivningar. Att modulen ligger under PostProcessorn är ingen självklarhet, utan modulen kan flyttas runt i programmet så länge den ligger efter syntaxregelmodulen. Exempelmeningen: 30