Linköpings universitet. Kognitionsvetenskap. Instutitionen för datavetenskap. Kandidatuppsats 15 ECTS. CogFLUX

Storlek: px
Starta visningen från sidan:

Download "Linköpings universitet. Kognitionsvetenskap. Instutitionen för datavetenskap. Kandidatuppsats 15 ECTS. CogFLUX"

Transkript

1 Linköpings universitet Kognitionsvetenskap Instutitionen för datavetenskap Kandidatuppsats 15 ECTS CogFLUX Grunden till ett automatiskt textförenklingssystem för svenska Författare: Jonas Rybing Christian Smith Handledare: Annika Silvervarg LIU-IDA/KOGVET-G 09/011 SE 31 augusti 2010

2

3 Sammanfattning En stor del av den svenska befolkningen har svårigheter att läsa en hel del texter på svenska, t ex myndighetstexter, nyheter men även skönlitteratur. Detta innebär att många inte har samma tillgång till information via det skrivna mediet som övrig allmänhet erbjuds. Komplicerade texter har visat sig besitta en avancerad syntax som försämrar läsbarheten. Manuell bearbetning av texter vid syntaxförenkling är en tidskrävande process och ett automatiserat tillvägagångssätt är önskvärt. I syfte att undersöka huruvida ett verktyg som automatiserar förenklingsprocessen är möjlig med dagens teknik togs verktyget CogFLUX fram. CogFLUX kan ses som en verktygslåda för vidare utveckling, som i dagsläget framförallt analyserar texter syntaktiskt och applicerar syntaktiska omskrivningsregler på frasnivå. Omskrivningsreglerna är sedan tidigare framtagna av Anna Decker vid Stockholms universitet. Utvärderingstexternas läsbarhet utvärderades med tre olika mått på läsbarhet; LIX, Nominalkvot och Lexikal variation, före och efter den syntaktiska förenklingen. Resultaten jämfördes sedan med manuellt förenklade texter inom samma genre. Resultaten av utvärderingen visar att vissa värden hos texterna kan förknippas med bättre läsbarhet efter CogFLUX:s bearbetning. Huruvida resultaten av förenklingen och utvärderingsmåtten visar på att texten blir mer lättläst diskuteras, då dessa ytliga mått har sina begränsningar och texterna ofta visade sig bli fragmentariska. Det kan konstateras att det med dagens resurser är möjligt att automatiskt applicera syntaktiska textomskrivningsregler på frasnivå. Tillsammans med ytterligare metoder för bearbetning av en texts syntax och dess semantik ses möjligheter för ett framtida robust verktyg som automatiskt gör texter lättlästa.

4 ii

5 Förord Vårt projekt kom att bli ett praktiskt utförande av Anna Deckers tidigare arbete, utan vilket detta hade detta arbete inte varit möjligt. Från Göteborgs Unviversitet kallades Katarina Mühlenbock in för att ge oss vägledning inom området, utvärderingstips, källtips och stöd. Lars Borin fick på avstånd vara till stor hjälp med licenser och resurser. På hemmaplan såg Arne Jönsson med sin rika entusiasm och uppmuntrande ord till att alla kom igång från start. Vår handledare Annika Silvervarg korrekturläste och gav tips på rapportutförande, inspirerande möten och exemplarisk handledning. Utan henne hade denna rapport varit än mindre lättläst. Stort tack till er alla! iii

6 iv

7 Innehåll 1 Inledning Syfte och mål Översikt Teoribakgrund Vad är lättläst text? Mått på läsbarhet Läsbarhetsindex Nominalkvot Lexikalvariation Automatisk textförenkling Automatisk textförenkling på engelska Automatiskt textförenkling på svenska Språkteknologiska resurser Språkteknologi för textbehandling MaltParser Granska Tagger Trädbankar och korpusar Problem och utmaningar Probleminventering v

8 4.2 Angreppssätt Avgränsningar CogFLUX Systemdesign Förenklingsprocessen PreProcessor TransformationsProcessor PostProcessor Utvärdering Automatisk förenkling Manuell förenkling Slutsatser och framtida arbete Går det att applicera syntaktiska omskrivningsregler? Är omskrivningsreglerna tillräckliga för att bidra till en texts förenkling? Påverkar textgenre omskrivningsreglernas prestation? Framtida utveckling vi

9 Tabeller 6.1 Värden för automatiskt förenklade texter Värden för manuellt förenklade texter i jämförelse med automatiskt genererade texter vii

10 viii

11 Figurer 2.1 Riktlinjer för lättläst text Formel för LIX Formel för nominalkvot Formel för lexikalvariation Angreppssätt sp Systemdesign för CogFLUX ix

12 x

13 Kapitel 1 Inledning I Sverige har uppskattningsvis 25 % av den vuxna befolkningen problem med att läsa på grundskolenivå [22]. Vidare uppskattas det att ungefär vuxna svenskar läser så dåligt att de enbart kan utvinna information ur mycket enkla och välstrukturerade texter [18]. Detta medför att de har svårt att ta till sig av den stora mängd information som finns i det skrivna mediet; tidningar, Internet, officiella dokument och så vidare. Kraven som ställs på läskunnighet ökar även de kontinuerligt, vilket betyder att många som ansågs läskunniga för en eller ett par generationer sedan inte behöver anses vara det i dagsläget [22]. Att inte ha möjlighet att ta del av all denna information, som ofta enbart finns tillgänglig i det skrivna formatet, gör det svårare att interagera i dagens samhälle. Därför är det viktigt att tidningstexter, skönlitteratur, myndighetstexter och andra officiella handlingar finns tillgängliga i ett format som är mer lättläst för personer med nedsatt läsförståelse. För att lösa detta problem behövs en metod för att förenkla texter automatiskt, då manuell förenkling är extremt resurskrävande i form av tid och personal. En dators styrka sitter i förmågan att snabbt utföra enorma mängder av enkla beräkningar. Att representera textförenklingsprocessen i form av handlingsregler som kan brytas ned i mängder av små beräkningar medför att en dator kan användas för att automatiskt förenkla texter. På så vis kan stora mängder av text förenklas på kort tid och göras tillgänglig för personer med lässvårigheter. Med hjälp av ett stabilt och precist automatiskt verktyg skulle denna målgrupp få tillgå stor mängd lättläst information, något som det i dagsläget är brist på. Utifrån den här grunden presenterar denna uppsats inledningen till ett försök att automatiskt förenkla text med hjälp av befintliga språkteknologiska tekniker. 1

14 1.1 Syfte och mål Huvudsyftet med projektet var att skapa ett verktyg, CogFLUX, som automatiskt kan förenkla texter baserat på syntaktiska omskrivningsregler. De förslag på syntaktiska omskrivningsregler som verktyget använde har sammanställts i ett tidigare arbete av Anna Decker på Stockholms Universitet, se avsnitt Ett mål är att verktyget ska vara modulariserat med olika verktyg för analys och bearbetning av texter. Modularisering möjliggör att funktionaliteten kontinuerligt kan förbättras genom vidare utveckling av nya moduler som tillämpar nya metoder och strategier för textförenkling. I denna modularisering ingår det också att verktygets resurser, som till exempel de generella syntaxomskrivningsreglerna, ska ligga distribuerade över externa filer. I ett sådant system kan prestanda enkelt förbättras genom att exempelvis applicera en ny uppsättning syntaktiska regler. Verktyget kan ses som en verktygslåda för experiment med textförenklingar, på så vis kan det förhoppningsvis också bidra med förståelse, nya tankar och ideér kring vad begreppet lättläst egentligen innebär. De frågeställningar som detta arbete syftar till att besvara är: I vilken utsträckning går det att automatiskt applicera syntaktiska omskrivningsregler med de språkteknologiska metoder och verktyg för textanalys som finns tillgängliga i dagsläget? Är de syntaktiska omskrivningsreglerna tillräckligt generella och applicerbara för att bidra till en texts förenkling? Till vilken grad är de syntaktiska omskrivningsreglerna generella med avseende på textgenre? Med andra ord; varierar CogFLUX prestation inom olika textgenrers? 1.2 Översikt Kapitel 2 presenterar en teoretisk bakgrund över området. Kapitlet beskriver och reder ut relevanta termer, teorier samt presenterar tidigare arbete inom området. Som en fortsättning på kapitel 2 ger kapitel 3 en kort introduktion till befintliga språkteknologiska resurser som används av CogFLUX vid textförenklingsprocessen. Kapitlet beskriver kortfattat området språkteknologi och dess för rapporten relevanta termer. Kapitel 4 sammanställer de övergripande problem som arbetet bemöter och hur de har avgränsats för att göra uppgiften realistisk inom tidsramarna. Kapitplet redogör och för det angreppssätt som har valts för att uppnå syften och mål. 2

15 I kapitel 5 presenteras själva verktyget CogFLUX i detalj. Kapitlet inleds med en beskrivning av CogFLUX:s övergripande systemdesign som visar hur CogFLUX är uppbyggt. Kapitlet och avslutas med ett exempel på hur en text transformeras vartefter den passerar genom CogFLUX:s olika moduler. Utvärderingsresultat i form av applicering av automatiska utvärderingsmått på auomatiskt förenklade texter presenteras i kapitel 6. Utvärderingen tar även upp en korpus med manuellt förenkladade svenska texter och jämför resultaten från CogFLUX med dessa. I rapportens avrundning, kapitel 7, förs en diskussion kring frågeställningarna och de resultat som CogFLUX genererat. Författarnas slutsatser och förslag på framtida utveckling av CogFLUX presenteras också i kapitlet. 3

16 4

17 Kapitel 2 Teoribakgrund Detta kapitel redogör för den teoretiska bakgrund och de tidigare arbeten som ligger till grund för rapporten. Kapitlet visar på svårigheter med att klassificera vad som egentligen är en lättläst text och hur lättlästhet kan mätas. 2.1 Vad är lättläst text? Det är svårt att definiera vad en lättläst text egentligen är, vad det är som utgör en texts läsbarhet. Det verkar finnas viss subjektivitet i vad som egentligen kan anses vara lättläst. Vissa lingvister anser att en text kan förenklas genom att reducera den syntaktiska svårighetsgraden genom att exempelvis ta bort redundant information eller genom att konvertera texten till aktiv form. Nedan visas ett konkret exempel på reduktion av redundant information samt konvertering till aktiv form av verbet i meningen. 1. Bilen som saknade en vindrutetorkare kördes av den stora mannen 2. Mannen körde bilen Huruvida om att bilen saknade en vindrutetorkare och att mannen är stor är redundant information kan diskuteras, men det visar klart tanken med syntaktisk förenkling. Andra argumenterar för att texter kan förenklas genom att lägga till mer information, genom att förklara komplicerade termer eller genom att ersätta svåra ord med enklare synonymer [16]. En lättläst text förknippas ofta med en kort text, men detta är inte nödvändigtvis sant då det kan tänkas att en text 5

18 konverterad till ett lättläst format kan bli längre än dess originalform, då komplicerade och komprimerade uttryck skrivs om. Björnsson (1969) definierar begreppet läsbarhet som A measure of the lexical and syntactic complexity of a text, which makes it more or less accessible to the reader [16]. Förenklad text används inom flera skilda kontexter som exempelvis att kommunicera med personer som lär sig ett nytt språk, kommunikation med barn, inom telegram eller inom kontrollerade domänspråk. Textförenklingar har varierande innebörd inom de olika kontexterna. Det är exempelvis stor skillnad på de förenklade texter som används inom barnböcker och de som används i ett sms. Inom barnbokskontexten är språket lätt, välskrivet och enkelt att förstå. Inom smskontexten är språket däremot kortfattat och fyllt med förkortade uttryck. Trots de uppenbara skillnaderna mellan texterna kan båda anses vara förenklingar. Den forskning som har gjorts på förenklad svenska har varit marginell och de allra flesta av studierna har bedrivits på skolbokstexter, eller på personer med läs- och skrivsvårigheter [16]. I Sverige finns det en stiftelse som heter LLstiftelsen som är en organisation som består av Centrum för lättläst (CFL), som är ett resurs- och kompetenscenter, samt LL-förlaget vilket är Sveriges största publicerare av lättlästa böcker. LL-stiftelsen arbetar i första hand med att göra texter läsbara för personer i samhället som har en form av skada eller sjukdom som leder till lässvårigheter. CFL arbetar på statligt uppdrag och är statligt finansierade för sitt arbete. En stor del av detta arbete går ut på att förenkla material som myndighetstexter och samhällsinformation. CFL ger även ut en lättläst tidning som heter 8 SIDOR, en tidning som riktar sig till de som har svenska som andraspråk. Utifrån erfarenheterna CFL har samlat efter att ha arbetat inom området har de sammanställt generella riktlinjer för hur en lättläst text bör utformas. Riktlinjerna inkluderar direkta regler för hur man ska skriva lättläst, men även regler för hur man bör skriva för läsare med språkskador. De har även regler för hur en text ska struktureras upp för att underlätta förståelsen av den, exempelvis bör en ny mening börja på en ny rad. Nedan presenteras de riktlinjer som används inom de lättlästa texter som LL-stiftelsen gör [16]: 6

19 Skriv kort. Ha något att säga läsaren - säg det - säg inget mer. Vissa läsare har svårt att skilja på vad som är förgrundsinformation och vad som är bakgrundsinformation i texten. Skriv från början till slutet. Händelser i texten ska följa kronologisk ordning utan att hoppa fram och tillbaka. Skriv med enkla ord. Skriv inte ord som är svåra att förstå ur varken morfologiskt, etymologiskt eller symboliskt synsätt. Ersätt det svåra ordet med en enklare och vanligare synonym, om du fortfarande behöver använda det svåra ordet förklara det. Skriv utan bildspråk. Beskriv saker så konkret som möjligt. Undvik klichéer. Många läsare tolkar texten bokstavligt. Skriv misstänksamt. Metaforer och liknelser kan ha en konkret såväl som en abstrakt betydelse. Skriv samma ord. Variera inte ordförrådet. Läsaren kanske inte förstår korsrefererande uttryck. Skriv utan onödiga siffror. Många läsare saknar den intuitiva känslan för nummer och mått. om du behöver skriva nummer - förklara och gör det konkret. Skriv utan tidsuttryck. Många läsare gör enbart skillnad på nu och då. Skriv direkt. Gör inga implikationer. Skriv på aktiv form. Skriv vem gör vad istället för vem gjorde vad mot vem eller vad gjordes av vem. Skriv huvudsatser. Använd så få bisatser som möjligt. Figur 2.1: Riktlinjer för lättläst text, översättning från Anna Decker [16] 7

20 2.2 Mått på läsbarhet Det finns en mängd metoder att mäta läsbarhet med, men få av dem använder sig strikt av matematiska formler som skapar ett kvantitativt lätt mätbart värde. Fördelen med beräkningsbara kvantitativa värden är att de snabbt och enkelt kan automatgenereras för att ge en indikation på hur lättläst en viss text är [3, 10]. Därför är de väl lämpade för att utvärdera och jämföra en mängd automatiskt genererade lättlästa texter med en guldstandard framtagen av lingvister eller med varandra. Formler räknar ofta på variabler som antal ord, längd på meningar etc. De formler som använts i denna studie är läsbarhetsindex, nominalkvot och lexikal variation Läsbarhetsindex Läsbarhetsindex (LIX) är den mest använda formeln för att beräkna svenska texters läsbarhet [16]. LIX utvecklades på slutet av 60-talet av C-H Björnsson och skulle användas inom skolsystemet för att bestämma litteratur till de olika årskurserna. För att beräkna läsbarheten på en text använder sig LIX av tre variabler från texten; antal ord, antal långa ord och antal meningar. Antalet ord är helt enkelt totala antalet ord i texten, långa ord definieras som ord som innehåller minst sex tecken. Eftersom LIX bara mäter en texts ytliga egenskaper ska det användas försiktigt. Ett lågt LIX-värde måste inte betyda lättläst, med det korrelerar ofta med upplevd läsbarhet och är därför ett användbart mått på läsbarhet [3]. Formeln för att beräkna LIX-värdet på en text ser ut som följer: LIX = Antal(ord) Antal(lȧnga ord) Antal(meningar) + Antal(ord) 100 Figur 2.2: Formel för LIX LIX-värdet hamner vanligtvis inom intervallet och mäts enbart i heltal. En generell tolkning av LIX-värdet ger följande fem kategorier [4]: Väldigt enkel text: 25 Enkel text: 35 Vanlig text: 45 Svår text: 55 Väldigt svår text: 65 8

21 2.2.2 Nominalkvot Hur tät packad informationen är i en text brukar mätas med Nominalkvot. Enkel nominalkvot beräknas genom att dividera antalet förekommande substantiv i texten med antalet förekommande verb [20, 21]. Normalvärdet för nominalkvot är 1,0 vilket är den ungefärliga nivå som morgontidningar och läroböcker ligger på. I formeln, som presenteras i figur 2.3, förlängs värdet med en faktor 100, vilket betyder att normalvärdet blir 100 istället för 1,0. Ett högre värde än normalvärdet innebär att texten är informationstät och därför mer svårläst [27]. En hög nominalkvot tyder på en mer professionell, skriftspråkligt utvecklad text, en låg kvot tyder på ett enklare och mer talspråksliknande skriftspråk och anses därför mer lättläst. En låg nominalkvot kan också i vissa sammanhang tyda på en mer berättande än diskursiv texttyp [21]. Formel för att beräkna nominalkvot: Nominalkvot = Antal(nomen+prepositioner+verbparticip) Antal(pronomen+adverb+verb) 100 Figur 2.3: Formel för nominalkvot Lexikalvariation Lexikalvariation eller ordvariationsindex (OVIX) är ett mått på hur stor variation det är på unika ord inom texten i förhållande till det totala antalet ord i texten. En stor variation ger ett högt OVIX-värde och texter med högt OVIXvärde anses vara mer svårläst än texter med ett lågt OVIX-värde [20, 23]. Att låg variation på orden i en text gör den mer lättläst kan även kopplas till CFLs riktlinjer som presenterdes i figur 2.1. Formel för att beräkna OVIX: OV IX = Antal(unika ord) Alla ord 100 Figur 2.4: Formel för lexikalvariation 2.3 Automatisk textförenkling Automatisk textförenkling är processen där text skrivs om till en mer lättläst version av ett system eller ett program, helt utan mänsklig inblandning under 9

22 själva förenklingsprocessen. Automatisk textförenkling är ett område som inom det engelska språket fått en hel den uppmärksamhet från mitten av 90-talet. Området är relativt ungt och outforskat då den första forskningsrapporten publicerades under 90-talets mitt [11]. System för automatisk textförenkling i dagsläget är alla baserade på ett slags transformationssystem. Med transformationssystem menas att det är ett system som tar in data (input) för att sedan manipulera dessa data baserat på vissa transformationsregler. Transformationsregler kan vara regler för att till exempel syntaktiskt strukturera om data, eller skära bort redundant information. Vad de flesta textförenklingssystem har gemensamt i dagsläget är målet att göra texten kortare [16]. Att en förenklad text alltid är kortare än dess original är dock en förenklad syn på området, textförenkling kan lika gärna göra en text längre genom att till exempel skriva om komplicerade termer eller textens syntax. Ett angreppssätt för att förenkla en text är att förenkla dess syntaktiska struktur. För att göra det behövs det en regelstruktur för hur en text syntaktiskt sett ska skrivas om för att den ska anses vara mer lättläst. Det finns en del olösta problem inom dagens state-of-the-art textförenklare [7, 8]. Ett problem är i vilken ordning de förenklade meningarna ska presenteras i för att bibehålla textens kvalitativa innehåll. Refererande uttryck ställer även till problem, vilket refererande uttryck förenklaren ska välja för att skriva ut pronomen Automatisk textförenkling på engelska Det finns en del system utvecklade för att förenkla text på engelska, till skillnad från på svenska. De som har varit de ledande och har bidragit med en mängd forskning inom fältet är Chandrasekar & Srinivas. [16]. De utvecklade bland annat ett domänoberoende, semi-automatiskt system för textförenkling baserat på de språkteknologier som fanns tillgängliga. Deras arbete är mest inriktat på att förenkla texter för att underlätta senare automatiskt parsning av texten, se avsnitt 3.1, då parsers ofta har stora problem med komplicerade texter [12, 11]. Förenklingsprocessen sker i två modulariserade steg; det första steget analyserar inputtexten för att finna beroenden mellan lexem och trädstrukturen, den andra modulen extraherar textkomponenter som kan förenklas och sedermera också förenklar dem. Systemet baseras liksom CogFLUX på syntaxomskrivningsregler på meningsnivå, de utvecklade även i ett senare arbete en metod för att automatiskt generera nya omskrivningsregler. Mark Dras har i sin doktorsavhandling tagit fram ett metod som han kallar Reluctant Paraphrasing [17]. Denna metod transformerar en mening från en form till en annan genom att applicera syntaktiska omskrivningsregler med målet att överflödig information ska gallras ur meningarna. Denna förenklingsmetod 10

23 är lik den metod som CogFLUX i dagsläget använder för att transformera meningar till en förenklad version. Användaren har kontroll över hur systemet ska förenkla texten, och därmed i vilken grad dessa omskrivningsregler appliceras. Det dokument som förenklas med denna metod krymper kontinuerligt i storlek vartefter mer information i meningarna gallras ur. Ett exempel som Dras ger på parafrasning av en mening är: LV + NP + inf-vp <-> V + inf-vp 1. Steve made an attempt to stop playing Hearts 2. Steve attempted to stop playing Hearts Ett annat system värt att nämna är PSet (Practical Simplification of English Text) [7, 8]. PSet är ett system som förenklar engelsk text, framförallt nyhetsartiklar, för personer som lider av afasi eller liknande lässvårigheter. PSet är indelat i två moduler; en analyseringsmodul och en förenklingsmodul som går under benämningen SYSTAR. SYSTAR hanterar olika språkteknologiska problem: anaforisk resolution, syntaxförenkling och anaforisk ersättning. Syntaxförenklingar som PSet gör är i form av konvertering av text i passiv form till aktiv form och konvertering av bisatser till nya meningar i form av huvudsatser (sentence splitting). PSet utför även lexikala förenklingar i form av synonymersättningar med hjälp av WordNet som är en stor lexikal databas för det engelska språket [24]. SYSTAR har visat att den kan förenkla en text syntaktiskt och behålla textens sammanhang och betydelsebärande enheter intakta, dock har inte hela systemet PSet utvärderats mot användare [16] Automatiskt textförenkling på svenska Det finns i dagsläget inget komplett system för automatiskt generera lättlästa texter på svenska. De lättlästa svenska texter som finns produceras manuellt av företag och myndigheter så som CFL. Det finns arbeten genomförda som har inlett bearbetning av problemet att automatiskt förenkla en text på svenska, två projekt presenteras nedan. Anna Deckers syntaktiska transformationsregler Anna Decker har undersökt om det finns generella regler för hur en menings syntax förändras då den skrivs om till en lättläst version. För att avgöra hur omskrivningsregler för automatisk textförenkling på svenska skulle kunna utformas granskade Decker manuellt förenklade texter på frasnivå. De manuellt förenklade texterna visade sig vara flyktiga och svåra att formalisera, med tanke 11

24 på de svårigheter som finns i samband med att definiera vad som egentligen är lättläst. Decker lyckades dock med att extrahera och formalisera 25 syntaktiskt transformationsregler, som hädanefter kommer refereras till som omskrivningsregler. Reglerna är utformade så att de ska passa ett system för automatisk förenkling av text. De data som Decker studerade hämtades från en nyhetstidning som heter Invandrartidningen, en tidning riktad till människor med svenska som andraspråk. Invandrartidningens syfte var att vara invandrares förstahandsval gällande nyhetstidningar. Invandrartidningen gavs även ut på sju andra språk förutom svenska. Först skrevs alla artiklarna på standardsvenska och de översattes sedan till de andra språken vilka trycktes upp och såldes. Efter det skrevs även en svensk lättläst version av artiklarna, dessa gavs ut som en annan tidning under namnet På lätt svenska. De lättlästa artiklarna skrevs av personer som arbetar på redaktionen, personer utan akademisk bakgrund som översättare eller lingvister. Textförenklingarna som utfördes baserades på vissa av reglerna som CFL har tagit fram, samt tumregler redaktionen själva utvecklat vartefter de arbetat med att skriva lättlästa texter. Eftersom Invandrartidningen och På lätt svenska är nyhetstidningar är de extraherade syntaxomskrivningsreglerna resultatet av generella mönster som kan sägas utmärka en lättläst nyhetstext, vidare diskussion kring detta i kapitel 7. Decker beräknade LIX-värdet för både den svenska versionen av Invandrartidningen som fick värdet 38, och för På lätt svenska som fick värdet 33. Värdena klassas som mellan lättläst och genomsnittlig text utifrån LIX-standarden, då lättläst har värdet 30 och genomsnittlig text har värdet 40 [4]. Artiklarna i Invandrartidningen och På lätt svenska skrevs även i tre olika versioner, väldigt lätt, lätt och inte så lätt. LIX-värdena för de olika svårighetsgraderna varierade relativt kraftigt, den lättaste versionen i På lätt svenska fick ett värde på 25 och den inte så lätta versionen fick ett LIX på 42. Efter att ha normaliserat och korrigerat formateringen på artiklarna kunde de manuellt ordklasstaggas och parsas på frasnivå. Genom att jämföra den lättlästa artikeln från På lätt svenska med originalartiklarna ur Invandrartidningen identifierade Decker förenklingspar. Ett förenklingspar är en käll- och en målfras med samma innebörd och där målfrasen kan anses vara en förenkling av källfrasen. Förenklingsparen varierade i sin form, ibland togs data bort, ibland hade mer lagts till och så vidare. Totalt identifierades 467 förenklingspar. Förenklingsparen kategoriserades enligt Svenska akademiens grammatik [30] och analyserades. Utifrån detta sammanställdes de 25 syntaktiskt omskrivningsreglerna på frasnivå vilket är Deckers resultat. Ett exempel på en omskrivningsregel är: np(det+ap+n) > np(n). Vad denna regel innebär är att en nomenfras som består av en determinator, en adjektivfras och ett nomen ska skrivas om till att bara innehålla ett nomen, förslagsvis samma nomen för att bibehålla den semantiska innebörden. 12

25 Viktigt att notera är att Decker även identifierade flera förenklingar på överfrasnivå, exempelvis förenklingar som skifte i ordposition mellan meningar. Även generella omstruktureringar av texten hamnar över frasnivå, men denna typ av förenkling bortses från i Deckers och i denna studie. SkrivLätt Davidsson et al (2002) undersökte möjligheterna att utveckla ett datoriserat hjälpmedel för framställning av lättlästa texter och utvecklade en datorbaserad prototyp av ett hjälpmedel som framställer lättlästa texter utifrån originaltexter [15]. Programmet integrerades med Microsoft Word och försågs med ett gränssnitt som ger förslag på områden i texten som anses svårlästa. De svårlästa partierna identifierades bland annat genom en syntaktisk analys gjord av Conexors parser FDG följande vissa riktlinjer som angivits på Centrum För Lättläst. Andra riktlinjer som följdes inkluderar utskrivning av förkortningar, sparsamt användande av versaler samt ändring av verbform från passiv till aktiv. Programmet baserades dels på CFL s riktlinjer, men också på intervjuer gjorde på anställda hos CFL och manuella analyser av lättlästa texter. Därefter jämfördes de av SkrivLätt framställda lättlästa texterna med riktlinjerna som tagits fram av CFL, varpå det konstateras att riktlinjerna verkar efterlevas och att det rent av fås plats med nya riktlinjer såsom att dela upp långa stycken, lägga till fler rubriker, samt att hålla relativsatser korta. I SkrivLätt görs en skillnad på hur långa respektive korta texter behandlas. Långa texter anses skrivas om helt och hållet medan korta texter bearbetas mening för mening och ibland ord för ord. Det fokuseras i SkrivLätt på korta texter. Vissa partier har gått bra att identifiera som svåra och få dem omskrivna till lätta, i andra fall har det dock inte gått att ge förslag på förenklingar utan endast visat på att ett parti kan vara svårläst. SkrivLätt får då fungera som en indikation och gör författaren uppmärksam på en svårläst struktur utan att genomföra förenklingen på egen hand. Problem som påträffades i arbetet innefattar en avsaknad av hantering av semantisk information, något som i många fall verkar krävas för en fullgod analys, tillräcklig för automatisk producering av lättlästa texter av mänsklig kvalitet. Det nämns också att olika målgrupper kan ha olika behov av lättlästhet och att texterna riskerar att bli barnsligt lätta. 13

26 14

27 Kapitel 3 Språkteknologiska resurser I detta kapitel presenteras språkteknologiska resurser som är för CogFLUX nödvändiga för att utföra textförenklingar. Resurserna inkluderar verktyg för parsing, ordklasstaggning samt korpusar. Resurserna ligger externt från resten av CogFLUX. 3.1 Språkteknologi för textbehandling En text kan vara ett eller flera manuellt producerade dokument bestående av maskinläsbar text bestående av ett antal ord fördelade på meningar. Texterna innehar vissa strukturer gällande för språket under vilket de blev producerade, strukturer som är viktiga för vår kognitiva bearbetning av dem. En text består ur ett språkteknologiskt synsett av en samling tokens. En token är en enhet i texten, ord är den vanligaste typen av token men även interpunktion som punkter och utropstecken kan räknas som tokens. Språkteknologiska system ämnar att automatiskt behandla maskinläsbar text på ett eller flera sätt, vanligen med flera delproblem som behöver lösas under processen. Ett par delproblem är ordklasstaggning och parsing. Vid ordklasstaggning blir varje token i en text tilldelad en uppmärkning, en tagg som visar på dess syntaktiska egenskaper, till exempel substantiv, adjektiv och verb. Olika system finns för taggning och antalet möjliga taggar varierar från ett dussintal till hundratals. Två problem är förenade med automatisk ordklasstaggning; hitta möjliga taggar för varje ord och att välja mellan flera möjliga taggar (som exempel kan ordet springa både vara substantiv eller verb). State-of-theart -taggare klarar att korrekt tagga över 97% av orden i en text på svenska [9]. 15

28 Under parsingen analyseras texten automatiskt varpå dess syntaktiska struktur annoteras, där en menings mindre delar(fraser) kategoriseras till nomnialfraser, verbfraser et cetera [25]. Parsning förekommer vidare i olika former, däribland grund ( shallow ) och djup ( deep ) parsning. Vid grund parsning (även kallat chunkning) identifieras beståndsdelar såsom substantivgrupper, verb och verbgrupper medan det vid djup parsning identifieras fraser och beståndsdelarnas roll i meningen. I meningen En man såg flickan med en kikare skulle en grund parsning identifiera delar såsom En man och en kikare utan att bry sig om vem som har gjort vad. En djup parse skulle däremot fånga in skillnaden av betydelsen av meningen som en man såg en flicka som innehade en kikare och en man använde en kikare för at titta på flickan. Olika metoder för parsing förekommer också, till exempel frasstrukturparsing, där orden i en mening kopplas samman i en hierarkisk struktur med avseende på ordklass. Dependensparsing är ett annat exempel där orden kopplas samman i binära relationer och visar på roller som subjekt och objekt, vem som gjorde vad. Parsning tillsammans med ordklasstaggning är två grundläggande operationer för att analysera en text på det syntaktiska planet. 3.2 MaltParser Ett system för att parsa texter är MaltParser. MaltParser är ett system för datadriven dependensparsning utvecklad vid Växjö Universitet av Johan Hall, Jens Nilsson och Joakim Nivre. MaltParser kan användas för att inducera en parsing-modell från taggad trädbanksdata och för att parsa ny data baserat på den inducerade modellen. Trädbanksdatan är taggad med både frasstruktur och grammatiska funktioner. Frasstrukturinformationen transformeras till en dependensrepresentation som sedan kan användas för att inducera en modell med vilken frasstrukturen hos en text kan återfås, tillsammans med de förekommande grammatiska funktionerna. MaltParser är baserad på SVM (Support Vector Machines), en teknik för att klassificera data, eller mer specifikt LIBSVM, A Library for Support Vector Machines[14]. MaltParsern har en relativt bra prestanda, med en F1-score på över 75, över 80 beroende på vilken korpus som används som indata. F1-score är ett mått på exakthet (eng. accuracy) som tar hänsyn till precision (graden av korrekt parsade meningar) och recall (antal korrekt parsade meningar). 16

29 3.3 Granska Tagger Granska tagger [9] använder sig av Hidden Markov Models för att välja ut korrekt ordklass. Hänsyn tas till hur ordet är uppbyggt, till exempel om det börjar med stor bokstav så är det troligen ett namn och hur ordets ändelse kan indikera på en viss ordklass. En simpel algoritm för identifiering av sammansatta ord är också implementerat i Granska tagger. Granska klarar av att korrekt tagga 92% av för den okända ord, och 97 % korrekt av kända ord. Med kända ord menas ord som Granska har i sitt lexikon. Förutom att tagga upp text med ordklasser klarar även Granska av att identifiera ett ords lemmaform. Lemmaform är en lingvistisk term för ett ords grundform, exempelvis gick har lemmat gå och cyklarna har lemmat cykel. 3.4 Trädbankar och korpusar För att träna parsern, det vill säga skapa en modell att använda vid parsning, krävs en befintlig taggad trädbank; en korpus där varje mening har fått en syntaktisk analys[1]. I projektet användes Svensk Trädbank[5] som egentligen består av två olika korpusar; SUC[19] och Talbanken05[26]. SUC (Stockholm Umeå Corpus) är en morfosyntaktiskt analyserad (försedd med ordklassetiketter och grundformer på alla korpusens ord) balanserad korpus över publicerat svenskt skriftspråk från 1990-talet. Talbanken är en korpus med svenskt skriftspråk och transkriberat talspråk från 1970-talet. Dessa två korpusar utgör alltså tillsammans i en harmoniserad version Svensk trädbank som distribueras av Språkbanken[5]. Vidare andvändes ett lexikon 1 med ord och taggar till Granska tagger för att ordklasstagga texten. Lexikonet med förkortningar hämtades från Svenska Akademiens Ordlista [29]

30 18

31 Kapitel 4 Problem och utmaningar Det här kapitlet tar upp generella problem som är kopplade till automatisk textförenkling. Det angreppssätt som använts för att uppnå de olika delmålen och syftet med projektet följer probleminventeringen. Utifrån identifierade problem tar kapitlet upp de avgränsningar som dragits för att göra arbetet genomförbart inom tidsramarna. 4.1 Probleminventering Ett givet problem är att identifiera vad i en texts syntax som gör det svårläst respektive lättläst. Metoder för att analysera texten syntaktiskt innefattar ordklasstaggning och parsing vilka innebär flera existerande problem inom språkteknologi. Exempel på problem är härledning av vad ett pronomen som han eller hon refererar till (anaforisk referens) eller namnigenkänning (Named Enitity Recognition). De problemen åsidosätts för framtida utveckling och tas inte upp vidare i denna rapport. Andra problem som rör förenkling av syntax på frasnivå genom användning av på förhand bestämda omskrivningsregler är att en fras kan ha flera möjliga förenklingar. Som exempel beakta den korta meningen Den gröna bilen, här kan tänkas två möjliga omskrivningsregler som leder till två separata resultat; Den bilen eller Gröna bilen. Önskvärt vore någon form av sofistikerat rankningssystem som avgör vilken regel ger bäst resultat. En fras vars syntax har identifierats som svår kanske inte heller kan förenklas på ett konsekvent sätt utan att förlora dess informationsbärande egenskaper, något som kan göra texten mer svårläst. Även här skulle rankningssystemet kunna avgöra huruvida en förenkling är önskvärd eller inte. 19

32 Ett givet problem som uppstår förr eller senare är vad som överhuvudtaget konstituerar en lättläst text och till vilken grad en text kan avgöras vara mer eller mindre lättläst efter applicerade omskrivningsregler; hur omskrivningen ska utvärderas. 4.2 Angreppssätt Utanför systemutvecklingen har projektet innefattat arbete med korpus, implementation av omskrivningsregler och utvärdering, se figur 4.1. Figur 4.1: Angreppssätt sp. Korpusarbetet innebar till största del identifiering av en korpus innehållande rätt material med rätt annotation för syftet, samt viss anpassning av format mellan delar i systemet för att passa notationen i korpusen. Korpusar tillhandahölls av Språkbanken [5]. Med identifierade problem i åtanke resulterade arbetet i ett verktyg som kan ses som ett ramverk för vidare arbete med ett textförenklingssystem. Verktyget bygger på ett modulariserat system där varje modul kapslar in en eller flera funktioner såsom ordklasstaggning, parsing eller omskrivningsregler. Den valda arkitekturen ska vidare möjliggöra olika kombinationer av moduler för experimentation med funktionalitet. Anna Deckers omskrivnignsregler granskades och implementerades i så stor utsträckning som var möjligt, en process som låg väldigt nära systemutvecklingen. För att hantera reglera skapades ett scriptspråk, X-rules, specialiserat för just denna typ av regler. 20

33 Som utvärdering användes verktyget för att förenkla texter av tre olika genrers; skönlitteratur (50 %), myndighetstexter (25 %) och nyhetstexter (25 %), med hjälp av implementerade omskrivningsregler. Texterna var av varierande storlek; sammanlagt rörde det sig om ca ord. De förenklade texterna utvärderades sedan med tre olika mått; LIX, nominalkvot och lexikal variation, se avsnitt Avgränsningar Eftersom ett automatiserat verktyg för textförenkling är väldigt tekniskt avancerat och kan innehålla en mängd olika komponenter har detta projekt fokuserat på att bygga grunden till ett verktyg med fokus på enkel expansion. Verktyget är således inte designat för den slutgiltiga användaren och ett grafiskt gränssnitt har inte utvecklats. Verktyget arbetar på en mening i taget och hänsyn tas inte till relationer mellan meningar, endast syntaxen inom meningen. Algoritmen som utför de av omskrivningsreglerna identifierade förenklingarna tar inte hänsyn till om resultatet blir bättre eller sämre, den utför alla möjliga förenklingar som identifierats. Om olika förenklingar är möjliga på samma fras utförs samtliga istället för enbart den mest lämpade. I exemplet Den gröna bilen blir då resultatet efter förenklingarna bara bilen. Ytterliggare en avgränsning gällande omskrivningsreglerna är att bara de regler som syftar till att ta bort en hel eller delar av en fras implementerades. Vi utvärderar inte de riktlinjer för vad som gör en text lättläst utan förlitar oss på att de faktiskt är korrekta. Riktlinjerna i fråga är de som ligger till grund för de förenklade texter Anna Decker har använt för att sammanställa sina syntaktiska omskrivningsregler. Det pågår ett arbete med att utvärdera dessa riktlinjer och undersöka hur de relaterar till lättläst text. De förenklade texterna är inte anpassade för en viss målgrupp och därför tas inte några specifika behov hänsyn till vid utvärderingen. Förenklingarna utvärderas inte mot försökspersoner, utan med de automatiska mått på lättlästhet som tidigare presenterats. 21

34 22

35 Kapitel 5 CogFLUX Kapitlet inleds med en överblick över verktygen CogFLUX och övergår sedan i en demonstration av hur en text förenklas med CogFLUX. CogFLUX är ett ramverk för vidare utbyggnad med grundläggande funktionalitet för automatisk förenkling av texter. CogFLUX bygger på att funktionaliteten är fördelade över olika specialiserade delar som körs i en serie, där moduler som ska användas, textfil och vilka funktioner som ska utföras anges. 5.1 Systemdesign Funktionerna hos verktyget ligger fördelade över olika moduler med olika specialiserade funktioner (se figur5.1). Modulerna kapslas in av processorer baserat på funktionalitet, så moduler med liknande funktionalitet grupperas under samma processor. CogFLUX arbetar med en processor i taget och kör alla moduler i den ordning de är angivna. I inställningarna anges också vilken källa som skall köras. Vid körning sparar modulerna sedan resultaten i enskilda textfiler som sedan används av nästkommande moduler. Detta får till effekt att modulerna länkas ihop till en kedja som kan följas tillbaka till startpunkten då varje moduls resultat är sparat. Textfilerna är så långt det är möjligt formaterade enligt NEGRA-standard [6] förutom efter sista modulen där alla taggar tas bort och texten sammanställs. I figur 5.1 visas hur en text passerar genom de moduler och processorer som användes vid utvärderingen i kapitel 6. En mer djupgående demonstration över hur texten manipuleras i de olika modulerna följer i nästkommande avsnitt. 23

36 Figur 5.1: Systemdesign för CogFLUX Exempel på processorer inkluderar en PreProcessor som till exempel har moduler för ordklasstaggning och parsing av en text, medan en transformationsprocessor utför operationer på den taggade texten baserat på angivna regler, Decker och/eller förkortningsutskrivning. Reglerna anges i script som talar om vilka fraser och ordklasser som eftersöks för transformation. En PostProcessor kan sedan snygga till texten genom att ta bort taggar, dela in i stycken och så vidare. Verktyget har i dagsläget stöd för ordklasstaggning, dependensoch frasstrukturparsing, syntaktiska omskrivningsregler och abbreviationsexpandering. 5.2 Förenklingsprocessen För att ge en inblick i hur CogFLUX systematiskt bearbetar en text presenteras i detta avsnitt ett exempel som visar hur en mening färdas genom CogFLUX:s struktur. Exempelmeningen som valts liknar de meningar som finns med i utvärderingsmaterialet, men har modifierats för att bättre demonstrera varje moduls funktion och inverkan på texten. Exempelmeningen: Socialförsäkringen är t.ex. en viktig del av det svenska trygghetssystemet. 24

37 5.2.1 PreProcessor PreProcessorn och dess moduler har till uppgift att förbearbeta texten så en förenkling av den blir möjlig. Denna förbearbetning innefattar i dagsläget taggning av ordklasser och frasstruktur, eftersom omskrivningsreglerna är baserade på just detta. Vidare identifieras också ordens lemma-form. GranskaTagger För att ordklasstagga texten och för att identifiera lemma-former användes Granska tagger. Granska tagger och dess källkod finns tillgänglig på KTH. Text taggas enligt SUC-notationen [19] och innehåller information som tokenform (huruvida aktuell token är ett ord, en förkortning, interpunktion etc), ordklass och morfosyntaktisk information så som ägandeform, bestämd form, numerus och så vidare. Exempelmeningen: Socialförsäkringen [8 1 qs TOKEN_SIMPLE_WORD] nn.utr.sin.def.nom socialförsäkring är [ s TOKEN_SIMPLE_WORD] vb.prs.akt.kop vara t.ex. [ qs TOKEN_ABBREVIATION] ab t.ex. en [ fmbs TOKEN_SIMPLE_WORD] dt.utr.sin.ind en viktig [ bqs TOKEN_SIMPLE_WORD] jj.pos.utr.sin.ind.nom viktig del [ mbqs TOKEN_SIMPLE_WORD] nn.utr.sin.ind.nom.set del av [ ms TOKEN_SIMPLE_WORD] pp av det [ ms TOKEN_SIMPLE_WORD] dt.neu.sin.def den svenska [ mbqs TOKEN_SIMPLE_WORD] jj.pos.utr/neu.sin.def.nom svensk trygghetssystemet [4 1 qs TOKEN_SIMPLE_WORD] nn.neu.sin.def.nom trygghetssystemet. [ fs TOKEN_PERIOD] mad. NegraTagger NegraTaggern konverterar outputdatan från Granska till NEGRA-format [6]. Detta görs för att parsern ska klara av att parsa texten då den inte stödjer formatet som texten står i efter Granska taggern. Ordklass och morfosyntaktisk information förblir den samma. Nytt är dock BOS- och EOS-taggarna som indikerar var en mening börjar och slutar. Exempelmeningen: 25

38 #BOS 0 Socialförsäkringen socialförsäkring NN UTR SIN DEF NOM är vara VB PRS AKT KOP t.ex. t.ex. AB en en DT UTR SIN IND viktig viktig JJ POS UTR SIN IND NOM del del NN UTR SIN IND NOM SET av av PP det den DT NEU SIN DEF svenska svensk JJ POS UTR/NEU SIN DEF NOM trygghetssystemet trygghetssystemet NN NEU SIN DEF NOM.. MAD #EOS 0 MaltParser MaltParsermodulen är den modul som bygger upp alla meningars frasstrukturträd i texten. De två kolumnerna längst till höger som tidigare var tomma har nu fyllts på med information. Kolumnen längst till höger innehåller ett nummer, detta nummer är namnet på den direkt överliggande fras som ordet eller frasen tillhör. Exempelvis har ordet Socialförsäkringen 500 som överliggande fras, nedanför meningen står numren uppradade med information om vilken typ av fras det är, i detta fall en nomenfras (NP), samt vilken eventuell överordnad fras frasen tillhör. Exempelmeningen: 26

39 #BOS 1 Socialförsäkringen socialförsäkring NN UTR SIN DEF NOM HD 500 är vara VB PRS AKT KOP FV 507 t.ex. t.ex. AB HD 501 en en DT UTR SIN IND DT 506 viktig viktig JJ POS UTR SIN IND NOM HD 502 del del NN UTR SIN IND NOM SET HD 506 av av PP PR 505 det den DT NEU SIN DEF DT 504 svenska svensk JJ POS UTR/NEU SIN DEF NOM HD 503 trygghetssystemet trygghetssystemet NN NEU SIN DEF NOM HD MAD IP 507 #500 NP SS 507 #501 AVP CA 507 #502 AP AT 506 #503 AP AT 504 #504 NP PA 505 #505 PP ET 506 #506 NP OO 507 #507 S MS 0 #EOS 1 Som modulnamnet avslöjar används MaltParser som parser i denna modul. MaltParsern måste innan användning tränas på lämpligt träningsmatrial för att korrekt parsing ska möjliggöras. MaltParser tränades först på Svensk Trädbank för att skapa en parsing-modell. Denna modell användes sedan till parsing av textens frasstruktur, baserat på ordklasserna och lemma-formerna identifierade av Granska tagger. Efter parsingen är texten redo att förenklas TransformationsProcessor TransformationsProcessorns moduler skall identifiera möjliga förenklingar av en taggad text. I TransformationsProcessorn ska alla moduler som har med en texts förenkling ligga. SyntaxRegler SyntaxRegelmodulen identifierar möjliga förenklingar baserade på den uppsättning regler som angivits. Totalt implementerades 13 av Deckers totalt 25 identifierade omskrivningsregler(se avgränsningar 4.3). För att göra det så enkelt som möjligt att ange regler, ändra i regler, ta bort regler och införa nya regler skapades ett litet script-språk, X-rules. Reglerna anges var och en på en egen rad i scriptet enligt följande notation: 27

40 REPL//NP-DET JJ N-> NP-N P(S) DEL//NP-DET JJ N-> # P(NP) Regels första del, REPL// eller DEL//, anger vilken typ av regel det är, REPL betyder replace (ersätt) och DEL betyder delete (ta bort). Direkt efter regeltyp anges vilken typ av fras som ska manipuleras, målfrasen. I de två regelexemplen ovan är målfrasen en nomenfras bestående av en determinator, ett adjektiv och ett nomen (NP-DET JJ N). Direkt efter pilen (->) i regeln anges vad frasen ska ersättas med, ersättningsfrasen. Vid DEL ska naturligvis frasen inte ersättas med något utan helt tas bort, då brukar en # anges istället för en ersättningsfras. Vid REPL däremot ska målfrasen bytas ut mot en ersättningsfras, i första exempelregeln är ersättningsfrasen en nomenfras som enbart innehåller ett nomen (NP-N). Den sista delen av regeln kallas frasvilkor och anges med ett paragraftecken ( ) följt av vilket vilkor det rör sig om. I exemplen vilken typ över överordnad fras, förälderfras (P), som målfrasen måste ingå i. I första regelexemplet måste målfrasen ligga direkt under en satsfras ( P(S)), i andra regelexemplet direkt under en nomenfras ( P(NP)). Notera att denna modul inte utför dessa förenklingar som den med reglerna identifierar. Modulen taggar enbart upp vilka ord och fraser som en regel har gett förslag på att ta bort, vilket kan ses nedan i exempelmeningen (<DEL>0, <DEL>1 etc). Själva utförandet av regeln inträffar i en senare modul(se 5.2.3). Om flera regler vill manipulera samma fras taggas helt enkelt frasen flera gånger, på så sätt kan modulen som utföra ändringarna enkelt kontrollera hur många regler det är som vill manipulera frasen. Viktigt att belysa är att exempelreglerna ovan är endast i demonstrationssyfte, ej regler som användes vid utvärderingen. Totalt identifierades sju förenklingar i exempelmeningen. Exemeplmeningen: 28

41 #BOS 0 Socialförsäkringen socialförsäkring NN HD #500 är vara VB FV #507 t.ex. t.ex. AB HD #501 en en DT DT #506 <DEL>[4]viktig viktig JJ HD <DEL>[4]#502 del del NN HD #506 av av PP PR #505 <DEL>[3]<DEL>[1]det den DT DT <DEL>[6]#504 <DEL>[5]svenska svensk JJ HD <DEL>[5]<DEL>[3]<DEL>[2]<DEL>[0]#503 trygghetssystemet trygghetssystemet NN HD <DEL>[6]#504.. MAD IP #507 #0 ROOT ROOT #507 S MS #0 #500 NP SS #507 #501 AVP CA #507 #506 NP OO #507 <DEL>4#502 AP AT #506 #505 PP ET #506 <DEL>6#504 NP PA <DEL>6#505 <DEL>5<DEL>3<DEL>2<DEL>0#503 AP AT <DEL>6#504 #EOS 0 Abbreviationsutskrivning En simpel förkortningsutskrivningsmodul som läser in ett externt lexikon med förkortingar tillsammans med tillhörande utskrivningar och byter ut dem. Lexikonet innehåller 210 förkortningar hämtade från Svenska Akademiens Ordlista [29] och består till mestadels av vanliga ordspråksförkortningar liksom t.ex. eller osv, förutom det innehåller lexikonet även en uppsättning företag- och myndighetsförkortningar som FRA - Försvarets Radioanstalt. Nedan följer ett kort utdrag ur det lexikon som modulen använder: t.ex till exempel dvs. det vill säga Modulen söker efter de förkortningar som står listade till vänster i lexikonet, och ersätter den med de utskrivningar som står till höger i lexikonet. Exempelmeningen: 29

42 #BOS 0 Socialförsäkringen socialförsäkring NN HD #500 är vara VB FV #507 till exempel till exempel AB HD #501 en en DT DT #506 <DEL>[4]viktig viktig JJ HD <DEL>[4]#502 del del NN HD #506 av av PP PR #505 <DEL>[3]<DEL>[1]det den DT DT <DEL>[6]#504 <DEL>[5]svenska svensk JJ HD <DEL>[5]<DEL>[3]<DEL>[2]<DEL>[0]#503 trygghetssystemet trygghetssystemet NN HD <DEL>[6]#504.. MAD IP #507 #0 ROOT ROOT #507 S MS #0 #500 NP SS #507 #501 AVP CA #507 #506 NP OO #507 <DEL>4#502 AP AT #506 #505 PP ET #506 <DEL>6#504 NP PA <DEL>6#505 <DEL>5<DEL>3<DEL>2<DEL>0#503 AP AT <DEL>6#504 #EOS PostProcessor PostProcessorn och dess moduler har som huvudsyfte att städa texten ren från taggar och återställa den i läsvänlig form. UtförSyntaxRegler Detta är modulen som utför de syntaxförenklingar som tidigare taggats upp av syntaxregelmodulen. I dagsläget utför modulet uteslutande alla upptaggade omskrivningar. Att modulen ligger under PostProcessorn är ingen självklarhet, utan modulen kan flyttas runt i programmet så länge den ligger efter syntaxregelmodulen. Exempelmeningen: 30

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning LINKÖPINS UNIVERSITET SimSum En studie om automatisk sammanfattning och omskrivning av texter Sammanfattning Anton Jeppsson Samuel Johnson Erik Karlsson Christofer Malmberg Victor Sjölin Åsa Svensson 2012-05-31

Läs mer

Permutationer av omskrivningsregler -Egenskaper hos omskrivningsregler till lättläst svenska

Permutationer av omskrivningsregler -Egenskaper hos omskrivningsregler till lättläst svenska Kandidatuppsats LIU-IDA/KOGVET-G--13/003--SE Permutationer av omskrivningsregler -Egenskaper hos omskrivningsregler till lättläst svenska Författare : Johannes Ahlström Handledare : Arne Jönsson Examinator

Läs mer

LINKÖPINGS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter

LINKÖPINGS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter LINKÖPINGS UNIVERSITET SimSum En studie om automatisk sammanfattning och omskrivning av texter Anton Jeppsson Samuel Johnson Erik Karlsson Christofer Malmberg Victor Sjölin Åsa Svensson 2012-08-13 Sammanfattning

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång FriendlyReader Språkteknologi för sammanfattningar och ökad läsbarhet Mål:! Öka den digitala delaktigheten genom att underlätta för personer med lässvårigheter att tillgodogöra sig textuellt baserad information

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår

Läs mer

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum Stöd för webbredaktörer att skapa mer tillgängliga texter Projektet har utvecklat Internet i Sverige Projektet var framgångsrikt Projektet nådde målen Projektet höll budgeten Projektet höll tidsplanen

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

SkrivLätt en undersökning av möjligheterna att utveckla ett datoriserat hjälpmedel för framställning av lättlästa texter

SkrivLätt en undersökning av möjligheterna att utveckla ett datoriserat hjälpmedel för framställning av lättlästa texter SkrivLätt en undersökning av möjligheterna att utveckla ett datoriserat hjälpmedel för framställning av lättlästa texter Jenny Davidsson, Therese Lönnborg, Åsa Nyberg, Sara Stymne, Karin Wahlberg, Stefan

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Föreläsning 6: Analys och tolkning från insamling till insikt

Föreläsning 6: Analys och tolkning från insamling till insikt Föreläsning 6: Analys och tolkning från insamling till insikt FSR: 1, 5, 6, 7 Rogers et al. Kapitel 8 Översikt Kvalitativ och kvantitativ analys Enkel kvantitativ analys Enkel kvalitativ analys Presentera

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

Meningssegmentering i SUC och Talbanken

Meningssegmentering i SUC och Talbanken Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Tentamen Del A. Marco Kuhlmann

Tentamen Del A. Marco Kuhlmann TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det

Läs mer

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016 Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

WEBBLÄTTLÄST SLUTRAPPORT

WEBBLÄTTLÄST SLUTRAPPORT Arne Jönsson 2012-07-23 WEBBLÄTTLÄST SLUTRAPPORT 1. Inledning Inom projektet WebbLättLäst har vi utvecklat teknik för att automatiskt rangordna svenska webbsidor efter hur läsbara de är. Detta gör att

Läs mer

EasyReader (FriendlyReader)

EasyReader (FriendlyReader) EasyReader (FriendlyReader) Arne Jönsson, Sture Hägglund Mål Ø Öka den digitala delaktigheten genom att underlätta för personer med lässvårigheter att tillgodogöra sig textuellt baserad information på

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

"Distributed Watchdog System"

Distributed Watchdog System Datavetenskap Emma Henriksson Ola Ekelund Oppositionsrapport på uppsatsen "Distributed Watchdog System" Oppositionsrapport, C-nivå 2005 1 Sammanfattande omdöme på exjobbet Projektet tycks ha varit av

Läs mer

WEBBKLUSTRING SLUTRAPPORT

WEBBKLUSTRING SLUTRAPPORT Arne Jönsson 2014-01-09 WEBBKLUSTRING SLUTRAPPORT 1. Inledning Inom projektet har vi utvecklat teknik som gör det möjligt att identifiera webbsidors innehåll och därefter klustra (gruppera) dem så att

Läs mer

Sofie Johansson Kokkinakis

Sofie Johansson Kokkinakis CLT Institutet för ISA - Svenska som Andraspråk IKT i lärarutbildningen Anknytning mellan IKT i forskning och undervisning Datorbaserad textanalys och ordförrådsbedömning. Sofie Johansson Kokkinakis sofie@svenska.gu.se

Läs mer

Mälardalens högskola

Mälardalens högskola Teknisk rapportskrivning - en kortfattad handledning (Version 1.2) Mälardalens högskola Institutionen för datateknik (IDt) Thomas Larsson 10 september 1998 Västerås Sammanfattning En mycket viktig del

Läs mer

Förslag den 25 september Engelska

Förslag den 25 september Engelska Engelska Det engelska språket omger oss i vardagen och används inom skilda områden som kultur, politik, utbildning och ekonomi. Kunskaper i engelska ökar individens möjligheter att ingå i olika sociala

Läs mer

Extramaterial till Matematik X

Extramaterial till Matematik X LIBER PROGRMMERING OCH DIGITL KOMPETENS Extramaterial till Matematik X NIVÅ TRE Programmering LÄRRE I den här uppgiften får du och dina elever en introduktion till programmering. Uppgiften vänder sig först

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

Automatisk textsammanfattning

Automatisk textsammanfattning Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem

Läs mer

Grafisk visualisering av en spårbarhetslösning

Grafisk visualisering av en spårbarhetslösning Datavetenskap Opponenter Johan Kärnell och Linnea Hjalmarsson Respondenter Agni Rizk och Tobias Eriksson Grafisk visualisering av en spårbarhetslösning Oppositionsrapport, C-nivå Report 2011:06 1. Generell

Läs mer

Utveckling av ett grafiskt användargränssnitt

Utveckling av ett grafiskt användargränssnitt Datavetenskap Opponenter: Daniel Melani och Therese Axelsson Respondenter: Christoffer Karlsson och Jonas Östlund Utveckling av ett grafiskt användargränssnitt Oppositionsrapport, C-nivå 2010-06-08 1 Sammanfattat

Läs mer

Word-guide Introduktion

Word-guide Introduktion Word-guide Introduktion På det kognitionsvetenskapliga programmet kommer du läsa kurser inom flera olika vetenskapsområden och för varje vetenskapsområde finns ett speciellt sätt att utforma rapporter.

Läs mer

Oppositionsprotokoll-DD143x

Oppositionsprotokoll-DD143x Oppositionsprotokoll-DD143x Datum: 2011-04-26 Rapportförfattare Sara Sjödin Rapportens titel En jämförelse av två webbsidor ur ett MDI perspektiv Opponent Sebastian Remnerud Var det lätt att förstå vad

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Lättläst är en del av tillgängligheten

Lättläst är en del av tillgängligheten Lättläst är en del av tillgängligheten Maria Österlund 11.12.2018 Lättläst för att alla har rätt till läsning. LL-Center Verkar inom FDUV intresseorganisationen för personer med intellektuell funktionsnedsättning

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001 Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock

Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock Inledning Vad är ett datorprogram, egentligen? Olika språk Problemlösning och algoritmer 1 (14) Varför använda en dator? Genom att variera de program som styr datorn kan den användas för olika uppgifter.

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1 Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut

Läs mer

Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8

Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8 Föreläsning 5: Analys och tolkning från insamling till insikt Rogers et al. Kapitel 8 Översikt Kvalitativ och kvantitativ analys Enkel kvantitativ analys Enkel kvalitativ analys Presentera resultat: noggrann

Läs mer

Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt.

Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt. Kunskapsgraf Fredrik Åkerberg j.f.akerberg@gmail.com Tommy Kvant tommy.kvant@gmail.com 1 Introduktion Målet med projektet var att undersöka huruvida DBpedia.org, kan användas för att besvara frågor på

Läs mer

Gränssnitt för FakeGranska. Lars Mattsson

Gränssnitt för FakeGranska. Lars Mattsson Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken

Läs mer

Kravspecifikation Fredrik Berntsson Version 1.3

Kravspecifikation Fredrik Berntsson Version 1.3 Kravspecifikation Fredrik Berntsson Version 1.3 Status Granskad FB 2017-01-27 Godkänd FB 2017-01-27 Dokumenthistorik Version Datum Utförda ändringar Utförda av Granskad 1.0 2014-01-15 Första versionen

Läs mer

Business research methods, Bryman & Bell 2007

Business research methods, Bryman & Bell 2007 Business research methods, Bryman & Bell 2007 Introduktion Kapitlet behandlar analys av kvalitativ data och analysen beskrivs som komplex då kvalitativ data ofta består av en stor mängd ostrukturerad data

Läs mer

Bedömningskriterier för kandidatuppsats i omvårdnad

Bedömningskriterier för kandidatuppsats i omvårdnad Nämnden för Omvårdnadsutbildningar Bedömningskriterier för kandidatuppsats i omvårdnad Instruktioner för användning: Alla angivna kriterier ska vara godkända för att studenten ska uppnå betyget godkänd.

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid

Läs mer

Svensk nationell datatjänst, SND BAS Online

Svensk nationell datatjänst, SND BAS Online Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata

Läs mer

Pedagogisk planering för ämnet: Svenska

Pedagogisk planering för ämnet: Svenska 1(5) Pedagogisk planering för ämnet: Svenska Tidsperiod: årskurs 4 Syfte & övergripande mål: Vi kommer att läsa, skriva, lyssna och tala. Syftet är att du ska utveckla förmågan att: - formulera dig och

Läs mer

Handledning och checklista för klarspråk

Handledning och checklista för klarspråk Handledning och checklista för klarspråk i Brottsofferjouren 2015-02-24 Innehåll Vad är klarspråk?... 2 Varför ska vi skriva klarspråk?... 2 Hur du kan använda checklistan... 2 Innan du börjar skriva...

Läs mer

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med

Läs mer

Utvärdering av automatiska omskrivningar Från både en objektiv och en subjektiv synvinkel

Utvärdering av automatiska omskrivningar Från både en objektiv och en subjektiv synvinkel Utvärdering av automatiska omskrivningar Från både en objektiv och en subjektiv synvinkel Linköpings universitet Kognitionsvetenskap Instutitionen för datavetenskap Kandidatuppsats Författare: Jonas Sandin

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014 Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng

Läs mer

RoboLinguistics. Ett textförståelseprogram. Henrik Palmér, d01hp

RoboLinguistics. Ett textförståelseprogram. Henrik Palmér, d01hp RoboLinguistics Ett textförståelseprogram Henrik Palmér, d01hp Inledning För att styra robotar räcker det inte att som i science-fictionfilmer bara säga till dem vad de ska göra. De största kraftansträngningarna

Läs mer

Frasstrukturgrammatik

Frasstrukturgrammatik 729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON

Läs mer

Svenska Läsa

Svenska Läsa Svenska Läsa utvecklar sin fantasi och lust att lära genom att läsa litteratur samt gärna läser på egen hand och av eget intresse, utvecklar sin förmåga att läsa, förstå, tolka och uppleva texter av olika

Läs mer

Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg

Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg Datavetenskap Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg Oppositionsrapport, C-nivå 2006:12 1 Sammanfattat omdöme av examensarbetet Examensarbetet är intressant eftersom

Läs mer

Fly me to the moon. Laboration om relationer, TDDC75 Diskreta strukturer. Mikael Asplund. 5 september 2017

Fly me to the moon. Laboration om relationer, TDDC75 Diskreta strukturer. Mikael Asplund. 5 september 2017 Fly me to the moon Laboration om relationer, TDDC75 Diskreta strukturer Mikael Asplund 5 september 2017 1 Inledning Denna laboration i diskret matematik a r ta nkt att ge en inblick i hur programmering

Läs mer

Kamratbedömning. Fokusera på följande:

Kamratbedömning. Fokusera på följande: Kamratbedömning Läs följande texter som dina klasskamrater har skrivit. Nu ska du ge konstruktiv kritik till dessa texter. Det vill säga, du ska kunna säga vad som är positivt och vad som är bra i texten,

Läs mer

Linköpings universitet

Linköpings universitet 2014-09-08 Översikt Kognitionsvetenskaplig introduktionskurs Föreläsning 5 Integrationsutmaningen Vad är kognitionsvetenskap? Kort bakgrund/historik Representation och bearbetning av information Vetenskapliga

Läs mer

Grammatisk teori III Praktisk analys

Grammatisk teori III Praktisk analys Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas

Läs mer

Analys av BI-system och utveckling av BIapplikationer

Analys av BI-system och utveckling av BIapplikationer Computer Science Fredrik Nilsson, Jonas Wånggren Daniel Strömberg Analys av BI-system och utveckling av BIapplikationer Opposition Report, C/D-level 2005:xx 1 Sammanfattat omdöme av examensarbetet Vi tycker

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Lättläst lätt att läsa eller lätt att skriva? Camilla Forsberg

Lättläst lätt att läsa eller lätt att skriva? Camilla Forsberg Lättläst lätt att läsa eller lätt att skriva? Camilla Forsberg Examinerad språkkonsult i svenska språket Universitetsadjunkt i svenska Doktorand i pedagogik 1) Vad innebär det att en text är lättläst?

Läs mer

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Karin Cavallin karin.cavallin@gu.se Institutionen för filosofi, lingvistik och vetenskapsteori Göteborgs universitet

Läs mer

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator version 2014-09-10 Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator Studentens namn Handledares namn Examinerande

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson FTEA21:3 Språkfilosofi Föreläsning I Martin Jönsson Att lära Varför Frege varken tror att ett ords mening är dess referens eller något mentalt. Freges egen teori om mening Tre semantiska principer Kompositionalitetsprincipen,

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

Regler för grupparbeten, inlämnings- och laborationsuppgifter

Regler för grupparbeten, inlämnings- och laborationsuppgifter 1 Fastställda av UNRH 2000-12-05 Civilingenjörsprogrammet i riskhanteringsprogrammet Regler för grupparbeten, inlämnings- och laborationsuppgifter Arbete i samband med inlämningsuppgifter och laborationer

Läs mer

Diginto. Administration av nätverks- och serverutrustning. Gonzalo Rivera

Diginto. Administration av nätverks- och serverutrustning. Gonzalo Rivera Diginto Administration av nätverks- och serverutrustning 1 Nätverksadministration Att skriva en teknisk rapport Agenda Rapportens delar Checklista Språket Skriv enkelt och klart Skriv kort men fullständigt

Läs mer

Riktlinjer för bedömning av examensarbeten

Riktlinjer för bedömning av examensarbeten Fastställda av Styrelsen för utbildning 2010-09-10 Dnr: 4603/10-300 Senast reviderade 2012-08-17 Riktlinjer för bedömning av Sedan 1 juli 2007 ska enligt högskoleförordningen samtliga yrkesutbildningar

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna

Läs mer

Här är två korta exempel på situationer då vi tillämpar den distributiva lagen:

Här är två korta exempel på situationer då vi tillämpar den distributiva lagen: Modul: Algebra Del 8: Avslutande reflektion och utvärdering Distributiva lagen Cecilia Kilhamn, Göteborgs Universitet Distributiva lagen a (b + c) = a b + a c Den distributiva lagen kallas den räknelag

Läs mer