Språkliga basresurser i

Storlek: px
Starta visningen från sidan:

Download "Språkliga basresurser i"

Transkript

1 Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 3 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall Hein, Uppsala Universitet Eva Pettersson, Uppsala Universitet

2 Sammandrag I detta arbete sammanställs ett svensk-engelskt baslexikon bestående av ett kärnlexikon och ett allmänlexikon. Detta baslexikon är tänkt att utgöra en allmänspråklig basresurs i maskinöversättningssystemet MATS. Allmänlexikonet fanns redan som en del av en befintlig databas inom MATS lexikondel och kunde därför utvinnas till den nya databasen i befintligt skick. Kärnlexikonet existerade i form av en förteckning av svenska ord och förkortningar i pappersform (Östling 1991). Denna lista översätts och digitaliseras samt tillförs lingvistisk information innan den läggs in i den nya databasen tillsammans med allmänlexikonet. Som komplement till kärnlexikonet fanns en förteckning av färdigöversatta allmänspråkliga flerordsuttryck. Dessa tillförs det digitala kärnlexikonet enligt samma principer som kärnlexikonet i övrigt. Eftersom riktlinjer för flerordsuttryckens lexikala representation i MATS till stora delar saknas, ämnar detta arbete skapa förutsättningar för sådana riktlinjer. Mer specifikt ligger problemet med flerordsrepresentation i att få MATS översättningsmekanism att känna igen fraser i lexikonet och välja den översättning som hör ihop med den givna frasen, istället för att översätta de i frasen ingående orden ord för ord. I resultat- och utvärderingsdelen av detta arbete presenteras lexikonets slutgiltiga utseende med avseende på ordklassfördelning. Kvaliteten på MATS översättning av lexikonet redovisas och en jämförelse görs med en stor, balanserad korpus för att utröna lexikonets täckningsgrad. I den avslutande delen av utvärderingen presenteras resultatet av de testparsningar som gjorts för flerordsuttrycken. De olika utvärderingsstegen gav skiftande resultat. Översättningsutvärderingen visade att 88 % av det svenska lexikonet översattes helt korrekt. Lexikonets täckningsgrad var ca 64 %, vilket innebär att vid en jämförelse mellan kärnlexikondelen av baslexikonet och en balanserad korpus om drygt en miljon löpord befanns 64 % av orden i kärnlexikonet vara representerade i denna korpus. Flerordsuttrycken i lexikonet kategoriserades som antingen adverbfras eller prepositionsfras, dessa flerordsuttryck gavs sedan en sådan representation i lexikonet att dessa kunde särskiljas från övriga lexikoningångar. Detta tillvägagångssätt visade sig framgångsrikt, då MATS översättningsmekanism konsekvent valde frasöversättningar före ordöversättningar i de angivna exempelmeningarna.

3 Innehåll Sammandrag Innehåll Figurer Tabeller Förord ii iii v vi vii 1 Inledning 1 2 Syfte 2 3 Bakgrund Korpuslingvistik Allmänspråklighet Allmänlexikons sammansättning Kärnlexikons sammansättning Maskinöversättningssystem MULTRA MULDA MATS MatsLex SYSTRAN Lexikala basresurser Svenskt kärnlexikon Svensk kärnvokabulär i MULDA Kärnfraser Svenskt allmänlexikon Allmänlexikonets innehåll Egen komplettering av kärnlexikonet Ordklassbestämning av fraser Lexikonformatering Digitalisering Automatisering Val av översättning på ordnivå Val av översättning på frasnivå iii

4 5.4.1 Frasrepresentation Inlägg i MATS Val av mönsterord Resultat och utvärdering Lexikonfilernas slutliga utseende Statistik per ordklass från kärnlexikon Körning av svensk lexikonfil i MATS Utvärdering av täckningsgrad Utvärdering av flerordsuttryck Diskussion 31 Litteraturförteckning 32 iv

5 Figurer 3.1 Zipf s lag Parsning nr 1 av meningen Advokaten studerade fallet i detalj Parsning nr 2 av meningen Advokaten studerade fallet i detalj Parsning nr 1 av meningen Polisen anlände på grund av alarmet Parsning nr 2 av meningen Polisen anlände på grund av alarmet Parsning av adverbfrasen på eget bevåg samt exempelmeningens översättning v

6 Tabeller 4.1 Ordklassfördelning i urvalslistan Statistik över det slutliga kärnlexikonets ordklassfördelning. Funktionsord Statistik över det slutliga kärnlexikonets ordklassfördelning. Innehållsord Resultat av översättning vi

7 Förord Tack till min huvudhandledare Anna Sågvall Hein, för idén till arbetet och hjälp med planering och genomförande. Tack också till min bihandledare Eva Pettersson, som har bistått med ovärderlig hjälp i det löpande arbetet: genom guidning i MATS, programmeringshjälp, korrekturläsning och mycket mer. Slutligen vill jag tacka mina klasskamrater, varav några förtjänar ett speciellt omnämnande. Oskar Blom har skapat ett mönsterordsprogram som jag använt, Hans Axelsson har svarat på diverse frågor av teknisk natur, Eva Ericsson och Peter Strömbäck har korrekturläst. vii

8 1 Inledning MATS, Methodology and Application of a Translation System, (Sågvall Hein et al 2004) är ett maskinöversättningssystem som Institutionen för lingvistik och filologi vid Uppsala Universitet tagit fram. MATS är främst avsett för högkvalitativ översättning inom avgränsade domäner (Sågvall Hein 1997). Dess lexikala resurser lagras i ett antal domänspecifika databaser. Gemensamt för dessa databaser är att de är sammanställda utifrån olika domäner i samhället. Med domän menas i det här fallet ett avgränsat område med avseende på ämne och stil. En databas som inte har sitt ursprung i en viss domän utan som istället tagits fram med hjälp av förutbestämda semantiska och funktionella kriterier skulle kunna komplettera de befintliga lexikonresurserna och bidra till att MATS översättningskapacitet breddas. En sådan databas presenteras i detta arbete. Innehållet i denna databas utgörs av ett baslexikon bestående av två separata lexikon: ett kärnlexikon och ett allmänlexikon. Eftersom dessa båda lexikon skiljer sig åt i form av urvalsprinciper sker en distinktion mellan de båda genom att allmänlexikonets innehåll märks med extensionen gd (general dictionary) medan kärnlexikonets innehåll märks med extensionen cd (core dictionary). Den främsta skillnaden lexikonen emellan är att allmänlexikonet inehåller ett större antal ingångar med en lägre grad av domänneutralitet än kärnlexikonet, som är mindre men har ett mer tillförlitligt innehåll med avseende på domänneutralitet. Huvuddelen av detta arbete kommer att handla om kärnlexikonet och dess sammansättning. Anledningen till detta är att kärnlexikonet inte tidigare existerat i dess nuvarande form, till skillnad från allmänlexikonet som extraherats ur befintliga lexikonresurser. 1

9 2 Syfte Syftet med arbetet är att vidareutveckla den svenska kärnvokabulär som utarbetats för MATS prototyp MULTRA, Multi-Lingual Support for Translation and Writing, (Sågvall Hein et al 2003). Denna kärnvokabulär, tillsammans med en uppsättning färdigöversatta kärnfraser och ett allmänlexikon, kommer att utgöra ett baslexikon som tillförs MATS lexikala resurser. Databasen är tänkt att fungera som en rörlig lexikal basresurs i MATS. Arbetet är ett led i strävan efter ökad robusthet och flexibilitet i MATS, det vill säga att MATS ska kunna användas för översättningar inom skilda domäner. Vidare syftar arbetet till att undersöka hur de nämnda kärnfraserna ska representeras. Kan de behandlas på samma sätt som ord eller kräver översättningsmekanismen ytterligare lingvistisk information för att frasernas översättning ska kunna väljas? 2

10 3 Bakgrund Detta kapitel beskriver förutsättningarna för mitt arbete. Inledningsvis ges en kortfattad introduktion av ämnet korpuslingvistik och en allmän diskussion kring allmänspråklighet. Därefter följer en allmän redogörelse för de kriterier som ligger till grund för skapandet av ett allmänlexikon och ett kärnlexikon. Vidare ges exempel på semantiska kriterier som kan användas för att skapa ett kärnlexikon, samt vad som kan anses vara en lämplig storlek på ett kärnlexikon. Slutligen beskrivs kortfattat de maskinöversättningssystem som är relevanta för mitt arbete; MULTRA och MATS, dess lexikala komponenter MULDA och MatsLex, samt direktöversättningssystemet SYSTRAN. En kortare motivering av kärnlexikonets allmänna betydelse för maskinöversättning avslutar kapitlet. 3.1 Korpuslingvistik Korpuslingvistikämnet kan definieras som studiet av språket baserat på verklig språkanvändning (McEnery & Wilson 2003). Med verklig språkanvändning menas i det här fallet språket som det används i texter av olika slag. Dessa texter kan vara tidningstexter, skönlitterära texter e.d. En korpus är en samling av mer än en sådan text (men termen kan även användas för att referera till transkriberat tal e.d.). Ofta används mer specifika kriterier för vad som betecknar en korpus. De vanligaste kriterierna är att korpusen ska vara»representativ, ändlig och maskinläsbar» (McEnery & Wilson 2003). Representativa korpusar kan sägas utgöra ett representativt urval av en större helhet. En representativ korpus som»består av olika typer av text i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk» (Berglund 2000), brukar kallas för en balanserad korpus. Kriteriet att en korpus ska vara maskinläsbar har tillkommit på senare tid, i takt med datorlingvistikens framväxt och denna egenskap är nu närmast synonym med begreppet korpus. En maskinläsbar text kan tolkas av en dator och önskvärda delar av texten extraheras, vanligtvis specifika grammatiska komponenter. Korpusens sammansättning är viktig i detta arbete eftersom obalans i korpusarna, samt för små korpusar, kan bidra till att allmänlexikonet trots allt innehåller vissa icke-neutrala ord. 3.2 Allmänspråklighet I varje situation där språk brukas sker en anpassning av språkbruket efter kontexten i vilket det äger rum. Eftersom en absolut neutral språksituation inte existerar kan heller inte ett absolut neutralt språk definieras. Arbetet med att skapa en uppsättning 3

11 allmänspråkliga uttryck och lägga dessa i ett lexikon bör därför ses mot bakgrund av tanken att språket är kontextberoende till sin natur. Detta får till följd att målsättningen vid skapandet av allmänspråkliga lexikon snarare blir att beskriva kriterier för hur de mest neutrala uttrycken i ett språk kan tas fram, än att göra anspråk på total domänneutralitet. Två kategorier av uttryck kan dock urskiljas: allmänspråkliga och fackspråkliga. Skillnaden dem emellan är att allmänspråkliga uttryck inte är beroende av en viss kontext utan äger en allmängiltighet som gör att de kan användas i vitt skilda språksituationer, medan de fackspråkliga uttrycken begränsas av snävare kontextuella ramar. I fortsättningen kommer termerna domänneutrala resp. domänspecifika uttryck att användas. Det är i gruppen domänneutrala ord och fraser som kandidaterna till att tas med i ett kärnlexikon återfinns. För att ett uttryck ska kunna kallas domänneutralt gäller att det inte kräver en viss omgivning. Detta innebär dels att de inte ska ha en begränsad användning i sig själva och dels att de inte implicerar något konkret Allmänlexikons sammansättning Med allmänlexikon menas här ett lexikon framtaget med hjälp av frekvenskriterier. Exempel på ett frekvenskriterium är: (1) Ordet ska tillhöra de n vanligaste orden i n stycken korpusar. Eftersom samtliga korpusar kan anses vara domänspecifika till viss del - en tidningskorpus har en hög andel sakliga ord som beskriver dagsaktuella ämnen, medan en romankorpus har en hög andel fiktionsinriktade ord - är ett brett urval viktigt för att ett allmänlexikon i ordets rätta bemärkelse ska kunna skapas Kärnlexikons sammansättning Urvalskriterierna för kärnlexikon är striktare än de för allmänlexikon. Förutom frekvenskriterier liknande de för allmänlexikon tillkommer också semantiska kriterier. Dessa semantiska kriterier varierar, men en gemensam nämnare är att betydelsen ska vara abstrakt. Följande sammanställning av semantiska kriterier är hämtad från Eva Wikholms arbete Svensk kärnvokabulär i MULDA: enords-och flerordsenheter (Wikholm 1994:4-7) och är här återgiven i sin helhet om inte annat anges. Det viktigaste kriteriet för nomen är att de har abstrakt betydelse [...] och bidrar till att uttrycka: tid (ex.dag, morgon). mått (ex. meter, deciliter). befintlighet, omfattning, riktning (ex. söder, höger). abstrakta förhållanden med generell betydelse (ex. verklighet, ansvar). 4

12 När man ska skilja ut domänneutrala verb har det visat sig vara framgångsrikt att deras valens. Verbets aktanter 1 skall därvidlag vara i möjligaste mån ospecifika. Verb som däremot uteslutande implicerar ett specifikt konkret föremål som subjekt eller objekt betraktas som domänberoende (ex. klippa, som implicerar objektet sax). De verb som återfinns i kärnvokabulären har sådana egenskaper att de uttrycker: handling där subjektet och objektet är ospecificerade. tillstånd med avseende på position i rummet: (ex. sitta, hänga). följande med handling och tillstånd nära sammanhängande aktionsarter: (börja, sluta). avsaknande av något: (ex. fattas, utebli, tömma). relation mellan subjekt och objekt: (tillhöra, innehålla, likna). Även när det gäller att skilja ut adjektiv till kärnvokabulären är det framgångsrikt att studera deras valens. Adjektiv som uteslutande anger en egenskap hos ett specifikt konkret huvudord beaktas inte [...] (ex. gift). Domänberoende adjektiv kan man också identifiera genom att urskilja konkreta eller domänspecifika betydelsekomponenter (ex. skogig). De utvalda adjektiven uttrycker sådant som: tid (ex. tidig, sen). dimensioner och väderstreck (ex. låg, sydlig). värderingar (ex. enkel, fri). färger och fysikaliska fenomen (ex. svart, ljus). tempo (ex. snabb, långsam). Ordklassen adverb är tämligen välrepresenterad i kärnvokabulären pga att adverb ofta uttrycker just tid, sätt och rum, kategorier som är viktiga komponenter i en domänneutral ordsammanställning. Adverben som ingår i kärnlexikonet uppfyller kriterier liknande de för adjektiv. Bland enordingarna kan ett antal vanliga förkortningar inkluderas: allmänna förkortningar (ex. ca, ggr, ngn). tidsangivelser (ex. min, sek, tim). måttsangivelser (ex. cl, dl, hl). väderstreck (ex. N, S, V, Ö). 1 de fyllnadsled som omfattas av ett verbs valens (egen anmärkning). 5

13 En viktig poäng är att dessa semantiska kriterier appliceras på innehållsord, ord som i sig har ett innehåll i det sammanhang de förekommer. Till dessa hör substantiv, verb, adjektiv och adverb. 3 Innehållsordens motsats är funktionsorden: artikel, infinitivmärke, konjunktion, räkneord, pronomen och preposition. Dessa är enbart betydelsebärande genom sin strukturella funktion. Funktionsorden anses på grund av detta ha en inneboende neutralitet, vilket gör att de i stort sett undantagslöst kan tas med i kärnlexikonet 4. Frekvenslistor som tagits fram över de vanligaste orden i en korpus (bland andra Manning & Schütze 1999) visar att funktionsorden är i klar majoritet i toppen av dessa listor, för att så småningom ge vika till förmån för innehållsorden. Kärnlexikonstorlek Vid skapandet av lexikala databaser är storleken en viktig faktor. Ett lexikons storlek är naturligtvis avhängig storleken hos det textmaterial varifrån lexikonet hämtas, samt hur strikta kraven är på vilka uttryck som bör ingå i lexikonet. Även om de uppsatta urvalskriterierna i detta fall bidrar till att hålla ner lexikonets storlek är det ändå önskvärt att definiera en undre gräns för detta lexikons storlek. Inom framförallt språkinlärning talar man om en gräns för hur många ord som utgör ett språks grundläggande ordförråd. Den så kallade»magische 2000-Wort- Grenze» (Krohn, 1992:67, citerad i Wikholm 1994:2) anger storleken 2000 ord som en undre gräns för det grundläggande ordförrådet. Torhild Igel skriver om detta i samband med det engelska språket:»det finns omkring 2000 högfrekventa ord i det engelska språket, av vilka 165 är funktionsord. [...] Eftersom dessa högfrekventa ord är så vanligt förekommande och består av så många funktionsord som är nödvändiga att känna till för att kunna använda språket är det nödvändigt att känna till dessa 2000 ord.[...] 2000 ord verkar vara det mest citerade målet för andraspråksinlärare och utgör en solid grund för mer avancerade studier» (Schmitt 2000:142, citerad i Igel 2004:10).»Denna gräns tycks vara tämligen stabil oberoende av vad syftet med ordförrådet är» (Wikholm 1994:3), därför användes siffran 2000 ord som en riktlinje på kärnlexikonets storlek. Ett mer generellt sätt att ta fram ett tröskelvärde för ordfrekvens är genom den så kallade Zipf s lag (Zipf 1949). Enligt Zipf s lag finns det ett samband mellan ett ords frekvens och ordets plats i frekvenslistan. Formeln f * r = k säger att det finns en konstant, k, som räknas ut genom att multiplicera ett ords frekvens, f, med dess rankning, r. Detta värde kan tas fram för vilket ord som helst i korpusen, och om dessa värden placeras i ett diagram med frekvensen som y-axel och rankningen som x-axel kommer grafen som dras mellan k:s värden att illustrera ett mönster. Mönstret visar att efter ett visst tröskelvärde har frekvensen sjunkit så mycket att förtjänsten av att utöka lexikonet är mindre än kostnaden för att lägga till orden i lexikonet. Diagrammet i figur 3.1 visar ett principiellt exempel, med värden hämtade från SUC (Ejerhed et al 1992), en balanserad korpus som används i utvärderingssteget av arbetet. I toppen av y-axeln finns några få ord som har en mycket hög frekvens: de fyra vanligaste orden utgör 10.9 % av det totala innehållet i korpusen. I andra änden av skalan återfinns istället ett stort antal ord som förekommer endast en gång Ordklassen adverb kan vara svår att kategorisera i detta avseende,»en ordklass på gränsen mellan innehållsord och funktionsord». (Wikholm 1994:6). 4 Tänkbara undantag är stilbundna/ålderdomliga utryck som Eder, ehuru (Wikholm 1994). 6

14 ord har frekvensen 1 och utgör därmed 3.5 % av korpusen. Efter de högfrekventa orden i toppen av y-axeln planar kurvan ut tills ett tröskelvärde kan skönjas. Figur 3.1: Zipf s lag. 3.3 Maskinöversättningssystem Utvecklingen av maskinöversättningssystem går från välfungerande men begränsade system till sådana som är såväl robusta som flexibla. Ett robust system ger alltid ifrån sig en översättning, även om kvaliteten kan skifta: (»It can handle a large variety of user inputs without giving up or producing unexpected results» (Lehmann 1991:1)). Ett flexibelt system kan översätta uttryck från skilda domäner och anpassa sig efter naturen hos den aktuella källspråksinputen. MATS är ett exempel på ett sådant begränsat system. Dess främsta syfte är att översätta tekniska dokument. Genom att införa en språklig basresurs som inte behöver modifieras när ämnesområdet skiftar, tas ett steg på vägen mot mer sofistikerade maskinöversättningssystem. De olika maskinöversättningsparadigm som brukar urskiljas är: 7

15 Direktöversättning. Översättning sker från ord till ord och fras till fras, utan mellanliggande syntaxanalys. Den viktigaste beståndsdelen i sådana system är lexikonet. I de fall direkt översättning leder till oönskade resultat appliceras en specifik regel för varje problemfall (Sågvall Hein 2004). Transferbaserad översättning. Översättning sker inte enbart på lexikal nivå utan även på strukturell nivå (Edqvist 2005:9). Genom syntaktisk analys av en mening på källspråket kan man sedan överföra meningsstrukturen till motsvarande struktur på målspråket och därmed undvika de problem som uppstår när källspråk och målspråk har olika lexikala representationer. Statistikbaserad översättning. Vid denna typ av översättning används storskaliga parallellkorpusar där man via sannolikhetsberäkningar räknar ut vilka ord som svarar mot varandra i källspråk/målspråk. Denna kategori kan ses som en underkategori till direktöversättningsparadigmet och fungerar ofta som ett komplement till andra strategier (Sågvall Hein 2004) MULTRA Ett första steg mot automatisk översättning vid Institutionen för lingvistik och filologi i Uppsala togs i och med utvecklandet av MULTRA. Projektet fungerade ursprungligen som ett datorstöd för översättning, där användaren kunde växla mellan manuell och automatisk översättning (Wikholm 1994). MULTRA tillhör kategorin transferbaserade maskinöversättningssystem. Det är uppbyggt av fyra självständiga moduler, dessa moduler är: Analys av källspråksenheten. Denna analys sker med hjälp av UCP, Uppsala Chart Processor (Sågvall Hein 1982). Val av struktur från analysmodulen. Om flera analyser görs i steg 1, väljs här en av dessa enligt en förutbestämd ordning. Transfer. Transfer sker i MULTRA genom unifiering av översättningsekvivalenter. Generering. Förutom unifiering används också konkatenering i detta steg. Fördelarna med en modulär uppbyggnad av det här slaget är framförallt att man kan se resultatet av varje enskilt steg i processen. På så sätt kan man enklare förstå vad som händer i varje steg, samt se exakt var felet uppstod vid felöversättningar (Sågvall Hein et al 2004) MULDA Lexikondelen av MULTRA-projektet utgörs av den flerspråkiga lexikala databasen MULDA (MULtilingual DAtabase). Databasen består av källspråksenheter som binds 8

16 samman med en målspråksekvivalent. Källspråket är svenska och målspråken engelska, tyska, ryska och franska. För varje språk finns en domänneutral, samt flera domänspecifika, vokabulärer (Wikholm 1994). Den domänneutrala vokabulär, eller kärnvokabulär, som upprättades för det svenska språket utgör grunden för den svenska delen av mitt kärnlexikon MATS Behovet av ett maskinöversättningssystem som på ett kommersiellt gångbart sätt kunde översätta industriella texter motiverade framtagandet av MATS. Översättningsmekanismen i MULTRA bibehölls och integrerades i MATS, liksom det modulära tankesättet. De fyra översättningsstegen i MULTRA blev tolv steg i MATS, med början i ett SGML-taggat dokument på källspråket och slut i ett motsvarande dokument på målspråket. (Sågvall Hein et al 2004) MatsLex Inom ramen för MATS-projektet utvecklades den flerspråkiga lexikala databasen MatsLex. I databasen ryms all lexikal data som används av MATS. Vid skapandet av databasen har prioriteringen varit att uppdatering och modifiering ska vara enkel att genomföra. Databasen är uppbyggd av tabeller som innehåller morfologisk, syntaktisk och semantisk information, kopplade till varandra. Den morfologiska och syntaktiska informationen anges i särdragsstrukturer som är förkortade i koder. Den nuvarande databasen innehåller domänspecifika ingångar på engelska och svenska. Dessa är sammanlänkade automatiskt och den genererade länkningen har därefter genomgått manuell granskning. Dessutom har databasinnehållet genomgått morfosyntaktisk analys och ytterligare syntaktisk och semantisk information är på väg att tillföras allteftersom databasen växer (Tiedemann 2002) SYSTRAN SYSTRAN (SYStem TRANslation) är ett av de tidigaste maskinöversättningsystemen. Det tillhörde ursprungligen direktöversättningsparadigmet men har anpassats och är idag snarare transferbaserat (Sågvall Hein 2004). En svensk-engelsk SYSTRANprototyp har tagits fram, med ett allmänlexikon framtaget av SYSTRAN själva i botten, samt ett korpusbaserat lexikon»som bygger på två meningslänkade korpusar som ställts samman av EC SYSTRAN. Den ena korpusen bygger på EU-dokument från en mängd domäner [...] medan den andra uteslutande bygger på texter från jordbruksdomänen» (Gustavii & Pettersson 2003). SYSTRAN:s översättningar utgjorde ett av de översättningsverktyg som användes i mitt arbete. 9

17 4 Lexikala basresurser Detta kapitel inleds med en beskrivning av hur det ursprungliga kärnlexikonet togs fram. Därefter följer en sammanställning över varifrån flerordsuttrycken kommer och hur de valts ut. En kortare redogörelse för allmänlexikonets ursprung ges också, och slutligen anges hur dessa basresurser kompletterats samt hur fraserna ordklassbestämts. 4.1 Svenskt kärnlexikon Arbetet med att skapa ett kärnlexikon på svenska för maskinöversättningssyften inleddes i och med en artikel skriven av Annette Östling (Östling 1991). Denna artikel, samt en besläktad artikel skriven av Eva Wikholm (Wikholm 1994) ledde till att en preliminär kärnvokabulär togs fram. I MULTRA-rapporten A Multilingual Dictionary of Functional Core Phrases with Prepositions (Wikholm et al 1993) presenterades även en uppsättning flerordsuttryck, vilka gjorde anspråk på att vara domänoberoende. Detta material utgör grunden för kärnlexikondelen av mitt lexikon och presenteras mer utförligt nedan Svensk kärnvokabulär i MULDA Kärnvokabulären som togs fram består av svenska ord och förkortningar i lemmaform, totalt 1551 stycken, varav 188 förkortningar. De ord som valts ut till kärnlexikonet kommer från en tidningskorpus som sammanställts av Språkbanken 5, en lexikal resurs som utgörs av tidningstexter om sammanlagt 7 miljoner ord. I ett första steg valdes de ordformer som hade en frekvens på 160 eller mer ut från tidningskorpusen. Morfologisk analys utfördes därefter med Uppsala Chart Processor. Dessa ordformer jämfördes med en lemmatiserad frekvenslista från Nusvensk FrekvensOrdbok, NFO (Allén et al 1975) och för att säkerställa ordens allmängiltighet sorterades de ord från tidningskorpusen som hade en frekvens på 10 eller färre i NFO bort. Antalet ord efter att dessa sorteringar genomförts var Genom uppdelning av frekvenslistan i 14 segment, där segment ett utgjorde de 200 vanligaste orden, segment två de nästa 200 och så vidare, framkom tydligt var förekomsten av 5 Språkbanken är en avdelning inom Göteborgs universitet som sedan 1975 bygger upp och ger tillgång till språkliga referensmaterial i form av texter och lexikaliska data. ( tillgänglig 13 maj 2005). 10

18 Tabell 4.1: Ordklassfördelning i urvalslistan Prepositioner Konjunktioner Pronomen Adverb Substantiv Verb Adjektiv 1.9% 1.2% 2.4% 8.1% 43.4% 25.8% 17.1% funktionsord avtog till förmån för innehållsorden, samt var de domänspecifika orden kommer in och ersätter de domänneutrala. Tabell 4.1 visar hur orden i frekvenslistan fördelades mellan ordklasserna. Substantiven, som är i majoritet sett till hela frekvenslistan, är endast sjätte vanligaste ordklassen i segment ett. Detta bekräftar antagandet att funktionsorden är de mest frekventa orden. Bland funktionsordklasserna pronomen, preposition samt konjunktion märks detta genom att pronomen och prepositioner är cirka sex gånger vanligare i segment ett än i listan som helhet, medan konjunktionerna är ca åtta gånger vanligare i segment ett. Flera utpräglat domänspecifika ord (ex. regeringen, kommunen) hamnar relativt högt upp, vissa till och med i segment ett. Detta kan ses som en bekräftelse på behovet av andra verktyg än frekvensmått för att skapa ett kärnlexikon Kärnfraser De mest frekventa orden i en text utgörs som tidigare nämnts till stor del av funktionsord. Dessa ord är ofta homonymer och för att fastställa vilken betydelse av ordet som avses krävs disambiguering. Fraserna i kärnlexikonet behöver dock inte disambigueras eftersom de ingående funktionsorden endast kan ha en betydelse i den givna frasen. Detta faktum, tillsammans med det faktum att översättningsekvivalenter lättare kan hittas, motiverar existensen av fraser i kärnlexikonet. Följande sammanställning av semantiska kriterier för flerordsuttryck i detta kapitel är hämtad från (Wikholm et al 1993:3-5) och något modifierad. Genom att konsultera Nusvensk Frekvensordbok 3 (Allén et al 1975), i vilken språkliga konstruktioner hämtade från tidningstexter från 1965 och framåt listas, togs ett antal flerordskonstruktioner fram. Dessa konstruktioner kategoriserades grammatiskt genom att varje grammatisk struktur gavs en part-of-speech förkortning, som till exempel [pp] +[nn], preposition+substantiv. Dessa strukturer användes sedan som urval för vilka fraser som skulle ingå i kärnvokabulären. De frasstrukturer som visade sig ha de önskvärda lingvistiska egenskaperna var: preposition + substantiv + preposition (i samråd med) preposition + substantiv (till exempel) preposition + adjektiv/pronomen + substantiv (på senare år) För att hitta de mest lämpliga fraserna bland de utvalda frasstrukturerna togs ett antal urvalskriterier fram. Enligt de fastlagda riktlinjerna för domänneutralitet ska fraserna vara»oföränderliga, kontinuerliga och syntaktiskt motiverade. Dessutom ska de uppvisa de övriga attribut som kännetecknar domänneutrala konstruktioner, nämligen att de ska vara frekvent förekommande samt inte innehålla konkreta eller domänspecifika element» (Sågvall Hein et al 1990:2-3, citerad i Wikholm et al 11

19 1993:3). Vissa återkommande faktorer användes för att utesluta fraser, till dessa hör: Valens. Frasen tillhör en större enhet beroende på verbvalens. Utan verbet kan inte en översättningsekvivalent tas fram. Exempel på detta fenomen är: (vara) i vägen för -> be in a person s way Semantisk bestämdhet. Många exempel hittades på fraser där substantivet var domänspecifikt: på listan över -> on the list of i huset -> in the house av politiska skäl -> of political reason Efter att enheterna granskats med avseende på ovanstående kriterier kunde ca 700 konstruktioner väljas ut. Översättningen av dessa gjordes av Annette Östling i samråd med Martin Naylor, auktoriserad översättare (Wikholm et al 1993). 4.2 Svenskt allmänlexikon Som komplement till kärnlexikonet togs ett allmänlexikon fram utifrån de uttryck i kursdatabasen 6 som var märkta med extensionen gd (general dictionary) Allmänlexikonets innehåll Uppmärkningen av allmänspråkliga uttryck gjordes av Eva Pettersson:»Svensk-engelska lexikon anpassade för MATS-systemet, har tidigare utvecklats för översättning av lastbilsmanualer, jordbrukstexter och SÄPO-texter. Dessutom finns ett större enspråkigt lexikon för svenska, SCARRIE-lexikonet, tillgängligt.[...] I lastbilslexikonet finns uppmärkt vilka av ingångarna som kan anses som allmänspråkliga och vilka som är specifika just för lastbilsdomänen. De ingångar som märkts som allmänspråkliga, fördes in i det blivande baslexikonet, medan övriga ingångar i lexikonet ignorerades. Från jordbrukslexikonet och SÄPO-lexikonet, extraherades endast de ingångar, vars källspråkssegment dessutom fanns upptagna i SCARRIE-lexikonet. På så vis rensades de (mest) domänspecika orden bort» (Pettersson 2005:5). 4.3 Egen komplettering av kärnlexikonet För att få kontinuitet bland funktionsorden användes i detta arbete frekvensordboken Tiotusen i topp (Allén 1972) för att fylla på med de funktionsord som dittills inte tagits med i kärnlexikonet. Viss semantisk gruppering gjordes av innehållsorden, bland annat i kategorierna veckodagar, högtidsnamn och månadsnamn, för att med hjälp av Allén skapa kontinuitet även där, med förhoppningen att antingen alla eller inga ord i en semantisk kategori förekommer i lexikonet. Dock gjordes på grund av tidsskäl 2005:4) 6 Databasen innehåller kursplaner och utbildningsplaner från Uppsala Universitet (Pettersson 12

20 ingen fullständig semantisk gruppering, en indelning som sannolikt låtit sig göras för samtliga innehållsordklasser. De räknetal som tagits med är grundtal och ordningstal till och med tolv. Detta motiveras genom den vedertagna skrivregel som säger att tal mellan ett och tolv skall skrivas med bokstäver, medan tal över tolv skall skrivas med siffror Ordklassbestämning av fraser Fraserna definieras som prepositionsfraser med främst adverbiell funktion av (Wikholm 1994:13). Det vore önskvärt att kunna ordklassmärka fraserna på ett kategoriskt sätt utan att behöva gå igenom varje fras för sig för att utröna ordklasstillhörighet. Därför togs beslutet att märka samtliga fraser som antingen adverbfraser eller prepositionsfraser. För att kunna avgöra vilka fraser som bör klassas som adverb respektive preposition togs kriterier fram för vad som kännetecknar en prepositionsfras respektive adverbfras. De fraser som gavs beteckningen adverbfraser var sådana som uttrycker rums-, tids-, sätts- eller gradförhållanden. Ordklassen preposition gavs till de fraser som ansågs vara osjälvständiga och behöva en nominalbestämning som huvudord. Mer konkret markerades de fraser som hade en preposition som sista ord i frasen som prepositionsfras. Om frasen kunde stå isolerat och ändå låta grammatisk bedömdes det vara en adverbfras (ex. efter några dagar) medan fraser som på egen hand var ofullständiga (ex. i motsats till) gavs ordklassen preposition. 13

21 5 Lexikonformatering I detta kapitel beskrivs arbetet med att skapa de tre filer i vilka kärnlexikonet ska lagras. Förutom den svenska delen av kärnlexikonet, som ju utgör grunden eftersom översättningsriktningen är svenska -> engelska, skapas även en engelsk fil på samma format, samt en länkfil där de svenska uttrycken kopplas ihop med sin engelska motsvarighet. En manual som beskriver hur dessa filer ska se ut har getts av Malin Wester (Wester 2004). Kapitlet innehåller också en redogörelse för den strategi som använts i översättningssteget. I samband med detta redovisas hur fraserna anges i lexikonet. Slutligen ges en konkret beskrivning av hur filerna läggs in i en lexikal databas och inkorporeras i MATS. I korthet ska källspråksfilen och målspråksfilen ha fyra kolumner: lemma, stam, mönsterord samt ordklass. Länkfilen ska ha fyra kolumner med källspråkets lexikoningång, dess lexemnummer (anger antalet lexem som lemmat har i lexikonet), översättningsekvivalenten 7 för målspråket samt dess lexemnummer. 5.1 Digitalisering Förutsättningen för mitt arbete var att de kärnord samt de kärnfraser som tillsammans utgör underlaget för det slutliga kärnlexikon som ska läggas in i MATS-systemet enbart fanns i pappersform. Som första åtgärd skulle därför dessa resurser digitaliseras. Istället för att skriva in lexikonen för hand scannades dokumenten in och med hjälp av OCR (Optical Character Recognition) omvandlades dessa till textdokument. Tidsbesparingen som detta medförde jämfört med manuellt inlägg var dock inte så stor som önskat, beroende på det stora behovet av manuell granskning. Efter detta moment hade 1551 enordingar och 706 flerordingar lagts in. I detta läge består alltså kärnlexikonet av 2257 svenska enords -och flerordsenheter, varav de 706 flerordsenheterna redan är översatta. Förutom arbetet med att översätta enordsenheterna återstod bland annat att ta fram»rätt» översättning för fraserna, där flera översättningar fanns listade. Detta arbete redovisas i kapitel Automatisering Arbetet med att skapa inläggsfiler för flerordsuttrycken i kärnlexikonet kunde till viss del automatiseras. Automatiseringen bestod i att samtliga fraser gavs samma mönsterord (det för flerordsadverb: I.ALLA.FALL) samt ordklassen adverb, eftersom de 7 Med översättningsekvivalent menas den minsta möjliga enheten som kan bytas ut mot en motsvarighet på målspråket. Ofta motsvarar ett ord på källspråket flera ord på målspråket eller vice versa. 14

22 flesta fraserna bedömdes vara adverbfraser. Detta åstadkoms med ett program skrivet i programspråket Perl. Fraserna granskades sedan manuellt för att prepositionsfraserna skulle hittas och ändras. Perlprogrammet kände igen flerordsuttrycken och modifierade dessa enligt exempel 2. Lemmatisering (2) av någon anledning -> av_någon_anledning.ab I andra kolumnen lades frasen in på den form det ursprungligen stod (ex. av någon anledning). I tredje kolumnen lades mönsterordet och i fjärde kolumnen ordklassen. Automatiseringen av ordinlägg skedde på liknande sätt. Kolumnen för ordklass fylldes i genom att ett Perlprogram läste in lemmaändelsen och på grundval av denna angav ordklassen för lemmat. Lemmaändelsen plockades helt enkelt bort i den andra kolumnen, på så sätt lades lemmats stam in. 5.3 Val av översättning på ordnivå Översättning av svenska kärnord har i första hand skett med hjälp av maskinöversättningssystemet SYSTRAN. Strategin som användes när orden i kärnlexikonet skulle översättas var att en översättning per lexem skulle tas fram. I den ursprungliga kärnvokabulären för ord och förkortningar fanns flera lexem angivna för en del lemman, men eftersom det inte framgår vilket lexem som avses gjordes en genomgång av samtliga lemman i vokabuläret, i syfte att hitta de lemman där mer än ett lexem skall översättas. Denna genomgång krävde ställningstaganden kring vilka lexem av ett lemma som är lämpliga att inkludera i kärnlexikonet. Ett exempel är lemmat ting.nn, som SYSTRAN översätter med court_session. I det fallet är det uppenbart att det lexem som bör väljas är: föremål, sak men exemplet illustrerar behovet av manuell granskning och komplettering av SYSTRAN:s val av översättning. Ett annat exempel är det svenska lemmat be.vb. I Norstedts Svensk-Engelska Ordbok (1993) fanns tre lexem listade. Dessa är: Religiös betydelse (utföra bön, engelsk översättning: pray). Uppmaning (anhålla, uppmana - ask, request). Bjuda någon på något (ask, invite). Endast ett av dessa lexem har valts ut till kärnlexikonet, nämligen lexem nummer två, som i lexikonet översatts med ask. De andra lexemen har inte befunnits vara tillräckligt neutrala: det första lexemet tillhör domänen religion. Det tredje lexemet är inte tillräckligt allmängiltigt och kan dessutom anses implicera ett specifikt objekt, nämligen personen som blir bjuden (se kap 3.2.2). Granskningen genomfördes med hjälp av ordböcker och det Internetbaserade översättningsverktyget Lexin. Granskningen betonade vikten av att skilja på homonymer, ord med likadan stavning och likadant uttal men med olika böjning och olika 15

23 betydelse, och polysemer, semantiska variationer inom ett lemma. Homonyma lemman får två ingångar i lexikonet eftersom böjningsmönstren, och därmed mönsterorden, är olika. Polysema lemman får däremot två identiska ingångar, eftersom det rör sig om semantiska variationer inom ett lemma, vilket innebär att de är identiska i den svenska lexikonfilen med avseende på den lingvistiska information som anges. Därför anges information om antalet lexem istället via en kolumn för lexemnummer i länkfilen. 5.4 Val av översättning på frasnivå De svenska kärnfraserna hade flera möjliga översättningar och i förteckningen över fraserna och deras översättningar hade, grovt räknat, hälften mer än en engelsk översättning listad, ibland så många som åtta. Eftersom lexikonformatet i MATS endast tillåter en översättningsrelation per fras krävdes ett ställningstagande om vilken översättning som skulle väljas. Valet föll på en frekvensbaserad urvalsmetod. Genom att använda sökmotorn Google ( tillgänglig 26 maj 2005) jämfördes antalet träffar för varje fras där mer än en översättning fanns och den målspråksfras som fick flest träffar behölls, ett tillvägagångssätt med såväl fördelar som nackdelar. Den positiva aspekten är att Google söker igenom ett mycket stort antal sidor och kan därför anses vara ett tillförlitligt mått på den reella användningen av en viss fras. Däremot är en viss snedvridning av resultatet oundviklig. Enstaka ord ger i regel alltid fler träffar än fraser, vilket kan leda till att en ettordsöversättning väljs även om den de facto inte är den mest frekventa översättningen. Dessutom är idiomatiska uttryck vanliga; dessa uttryck har alltså en annan betydelse än den bokstavliga svenska motsvarigheten och bidrar därmed till felaktiga sökresultat och i värsta fall felaktiga översättningsval Frasrepresentation Ett led i bearbetningen av kärnlexikonet var att ta ställning till hur flerordsuttrycken skulle representeras. Målet med representationen av flerordsuttryck i lexikonet var att MATS preferensregler, det vill säga de regler som väljer en översättning framför en annan, skulle kunna känna igen en fras på dess lexikala representation och på så sätt välja frasöversättningen när denna förekommer i en mening. Problemet kan exemplifieras med frasen av central betydelse. Denna fras finns i lexikonet, med översättningen essential. Dock finns även de i frasen ingående orden med i lexikonet: av.pp, central.av samt betydelse.nn. I sådana fall finns det inget sätt för reglerna i MATS att avgöra om frasöversättningen eller de separata översättningarna av de ingående orden ska väljas. Lösningen på detta problem ligger i valet av mönsterord. För flerordiga adverb fanns redan ett mönsterord: I.ALLA.FALL. Genom att tilldela adverbfraserna detta mönsterord kan denna information sedan förmedlas till MATS preferensregler, som definierar att lexikoningångar med detta mönsterord ska väljas först. Mönsterord för prepositionsfraser saknades dock, vilket fick till följd att prepositionsfraser gavs samma mönsterord som enordsprepositioner (I). När en prepositionsfras översattes var därför sannolikheten lika stor att frasen skulle översättas ord för ord, som att frasen i sin helhet skulle översättas. Därför definierades ett nytt mönsterord specifikt för prepositionsfraser (I.ANSLUTNING.TILL) vilket innebar att samma koppling kunde göras mellan detta mönsterord och kategorin prepositions- 16

24 fras, så att preferensreglerna väljer frasöversättningen även där. Semantisk information Som ett ytterligare verktyg för behandling av fraser i MATS har en ny kategori tagits fram, som är tänkt att tillhandahålla semantisk information om adverb och substantiv. Denna semantisk kategori innebär att en ny kolumn läggs till i lexikonet, med namnet semcode. I denna kolumn anges lexikoningångens semantiska egenskaper, exempelvis huruvida frasen är ett rumsadverbial, tidsadverbial, gradadverbial eller sättsadverbial. Denna kolumn fanns från början inte inlagd i lexikonet utan lades till genom en uppdatering av databasen. Eftersom en full semantisk kategorisering av samtliga adverbfraser skulle bli för tidskrävande togs istället en mer kortsiktig lösning fram. Denna lösning gick ut på att samtliga adverb plockades ut ur det svenska lexikonet, varpå ett Perlprogram lade till den semantiska koden i en femte kolumn i filen. Eftersom samma semantiska kod används för samtliga adverb kunde inlägget automatiseras och tidsåtgången minimeras. Däremot kommer koderna behöva ändras i efterhand, för att varje enskild fras ska få rätt semantisk information tilldelad. 5.5 Inlägg i MATS Ett lemma med flera lexem representeras genom lexemnumret i länkfilen. Såväl den svenska som den engelska sidan av länkfilen har en kolumn för lexemnummer. Eftersom syftet med arbetet är att skapa ett kärnlexikon på svenska, som sedan översätts till engelska, har lexem endast tagits fram för den svenska delen av lexikonet. I de fall ett svenskt lemma har mer än ett lexem, det vill säga två eller flera identiska ord med samma böjning men olika semantisk betydelse, anges detta genom lexemnumret. När lexikonfilerna är färdiga att läggas in görs detta med ett kommando som anropar ett Perlprogram. De mönsterord som hör till lexikoningångarna, samt information om dessa, måste också läggas in. Till sådan mönsterordsinformation hör bland annat morfologisk kod och affix. Den skapade databasen måste därefter kompileras för att lexikonet ska bli inkorporerat i MATS lexikonresurser Val av mönsterord MATS lexikondatabaser använder mönsterord för att representera den lingvistiska informationen hos varje lexikoningång. Ett mönsterord är ett ord som böjs på samma sätt som den givna lexikoningången (lemmat börja.vb har exempelvis mönsterordet ÄLSKA, medan combination.nn har mönsterordet DOG). Information om böjning, morfologisk kod och affix för mönsterorden läggs in innan en databas skapas. På så sätt räcker det att ange ett mönsterord per lexikonenhet för att få den nödvändiga informationen om den enheten. En stor del manuellt arbete krävdes för att, för varje ord i lexikonet, ange korrekt mönsterord. Till min hjälp hade jag en förteckning av mönsterordsdefinitioner för svenska och engelska, som skapats av Ebba Gustavii och Eva Pettersson (ursprungligen i Hellberg 1978). Dessutom fanns mönsterorden till många av mina lexikoningångar angivna i de befintliga databaserna. 17

25 6 Resultat och utvärdering Detta kapitel inleds med en redogörelse för lexikonets slutliga utseende. Därefter följer statistik på fördelningen mellan ordklasserna i lexikonet. En testöversättning av den svenska lexikondelen görs, i syfte att utröna hur väl MATS hittar de inlagda översättningsrelationerna. En metod för att kontrollera lexikonets täckningsgrad presenteras, slutligen görs en utvärdering av hur väl flerordsuttrycken behandlas genom att några av dessa parsas och översätts, varvid resultatet presenteras. Utvärderingarna och resultaten gäller uteslutande kärnlexikonet, eftersom detta inte tidigare existerat i digital form och därför aldrig utvärderats, till skillnad från allmänlexikonet, som extraherats ur befintliga MATS-korpusar. 6.1 Lexikonfilernas slutliga utseende Utdrag ur svensk lexikonfil Lemma Stam Mönsterord Ordklass dussin.nn dussin BORD NOUN elva.nl elva TRE NUM från_hela_världen.ab från hela världen I.ALLA.FALL ADV i_anslutning_till.pp i anslutning till I PREP lämna.vb lämna ÄLSKA VERB januari.nn jan DEC NOUN Utdrag ur engelsk lexikonfil Lemma Stam Mönsterord Ordklass dozen.nn dozen DOG NOUN eleven.nl eleven TWO NUM from_all_over_the_world.ab from all over the world AT.A.RIGHT.ANGLE ADV in_connection_with.pp in connection with OF PREP leave.vb leave LEAVE VERB give.vb give GIVE VERB January.nn January MUSIC NOUN 18

26 Tabell 6.1: Statistik över det slutliga kärnlexikonets ordklassfördelning. Funktionsord. Artikel Infinitivmärke Konjunktion Preposition Pronomen Räkneord % 0.05% 1.9% 9.1% 2.7% 1.2% Utdrag ur länkfil Lemma Lexemnummer Lemma Lexemnummer dussin.nn 1 dozen.nn 1 elva.nl 1 eleven.nl 1 från_hela_världen.ab 1 from_all_over_the_world.ab 1 i_anslutning_till.pp 1 in_connection_with.pp 1 lämna.vb 1 leave.vb 1 lämna.vb 2 give.vb 1 januari.nn 1 January.nn 1 Kommentar Lexikonexemplen syftar till att åskådliggöra hur information om respektive lexikoningång representeras i MATS, hur ingångarna ordklasstaggats samt vilka problem som kan uppstå. Två företeelser är extra intressanta i tabellerna. För det första lemmat lämna.vb, som har två lexem, vilket man kan utläsa i länkfilen tack vare det svenska lexemnumret, som anges i kolumn två. Det första lexemet har betydelsen avlägsna sig och översätts med leave. Det får därför lexemnumret 1. Det andra lexemet av lemmat lämna.vb har betydelsen överräcka, ge och översätts med give. Detta lexem får lexemnumret 2. Den andra iakttagelsen rör det svenska lemmat januari.nn. Av kolumn två, ordstam, framgår att ordet är en förkortning (jan.). Som synes har både förkortningen jan. och den fullständiga formen januari samma lemma och därmed även samma översättning. Den fullständiga formen januari.nn finns som eget lemma med egen ingång i lexikonet eftersom stammen är en annan än förkortningen. Värt att notera är även att det finns särskilda mönsterord för förkortningar, i det här fallet DEC. 6.2 Statistik per ordklass från kärnlexikon Statistikuppgifterna i tabell 6.1 och 6.2 gäller kärnlexikondelen av lexikonet. Eftersom ordklasstillhörigheten mycket sällan är olika på källspråk och målspråk ges ordklasstatistiken endast för den svenska delen av lexikonet. Dessutom kan en översättning som medför ordklassbyte inte tas med i lexikonet utan speciella regler för detta, så kallade transferregler. Siffrorna gäller unika lemman. Kommentar till tabell 6.1 och 6.2 När lexikonfilerna färdigbehandlats var det totala antalet ingångar i den svenska lexikonfilen 2544 st. Antalet ingångar i den engelska filen var 1801 och länkfilen in- 19

27 Tabell 6.2: Statistik över det slutliga kärnlexikonets ordklassfördelning. Innehållsord. Adjektiv Adverb Substantiv Verb % 39.8% 19.7% 13.2% Tabell 6.3: Resultat av översättning Ej i källspråkslexikon Ej i målspråkslexikon Ej i länklexikon Ingen målspråkskod Ingen parsning nehöll 2158 länkade uttryckspar. Antalet räkneord innefattar samtliga grundtal och ordningstal till och med tolv samt orden tiotal, hundratal och tusental. Ordklasserna adverb och preposition är överrepresenterade på grund av att samtliga flerordsuttryck ordklasstaggats med någon av dessa ordklasser. Anledningarna till att den engelska filen innehåller så mycket färre ingångar är flera. Den främsta anledningen är att så många enordiga svenska uttryck har en flerordig översättningsekvivalent. Detta gäller framförallt verb. Problemet är att flerordiga verbkonstruktioner på engelska behöver speciella transferregler i MATS grammatik för att fungera korrekt. Sådana regler finns för vissa konstruktioner, framförallt sådana med verbpartikel, men i de fall en regel saknas kan inte översättningen tas med. I översättningssteget blir det tydligt hur vanligt detta fenomen är. Många av de allra vanligaste domänneutrala svenska orden (få, gälla, hamna, heta, hinna, kalla, lossna, orka, slippa, tillhöra, understiga etc.) har flerordiga motsvarigheter. En annan anledning är att förkortningar endast förekommer i den svenska filen (se kommentarer till lexikonexemplen). Förkortningarna är 188 till antalet och utgör alltså en betydande del av lexikonet. Dessutom har många av dessa förkortningar försetts med separata ingångar för förkortningar med och utan punkt (ev / ev.). 6.3 Körning av svensk lexikonfil i MATS MATS webgränssnitt tillåter att en hel textfil anges som input för översättning. Därför kördes en fil innehållande den svenska delen av kärnlexikonet för att utröna hur systemet klarar av att hitta de inlagda översättningsrelationerna. Resultatet visas i tabell 6.3. Kommentar Filen bestod av 2031 unika ingångar, vilket innebär att ca 88 % av uttrycken översattes helt korrekt utan något felmeddelande. Totalt gavs 94 % av uttrycken den översättning som anges i länkfilen, med eller utan felmeddelande. Den första kolumnen i tabell 6.3, Ej i källspråkslexikon, är de ord eller fraser som inte hittats i infilen, den svenska delen av lexikonet. 20

Språkliga basresurser i

Språkliga basresurser i Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 30 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Grammatisk teori III Praktisk analys

Grammatisk teori III Praktisk analys Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Svensk nationell datatjänst, SND BAS Online

Svensk nationell datatjänst, SND BAS Online Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata

Läs mer

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form. SALDO Beskrivningen av SALDO finner du på adressen http://spraakbanken.gu.se/saldo För att söka i SALDO går du till den här adressen: http://spraakbanken.gu.se/ws/saldo-ws/fl/html En ruta kommer upp och

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med: Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med: UPPNÅENDEMÅL ENGELSKA, ÅR 5 TIPS År 2 Eleven skall Tala - kunna delta i enkla samtal om vardagliga och välbekanta ämnen, - kunna i enkel

Läs mer

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN MASKINÖVERSÄTTNING Datorn behöver statistik och grammatik ANNA SÅGVALL HEIN Det är lätt att skoja med en del resultat av maskinöversättning: Vad kan vi lära av det blir What can we faith of it. Då gör

Läs mer

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 1 Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt

Läs mer

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid Stockholms universitet Institutionen för lingvistik Språkteori grammatik VT 1994 Robert Eklund MORFEMANAYS Vi kan dela in ord i mindre enheter, segmentera orden. Här följer en liten kortfattad beskrivning

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (www.spsm.se)

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (www.spsm.se) Precodia Manual Precodia 1.0 Elevdata AB Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten (www.spsm.se) Elevdata i Malmö AB, Fosievägen 13 21431 Malmö Tel: 040-939150 www.elevdata.se

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Kommentarer till bedömningsmatris för Skriva Kurs C

Kommentarer till bedömningsmatris för Skriva Kurs C Kommentarer till bedömningsmatris för Skriva Kurs C Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar ett första intryck och är en övergripande

Läs mer

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Om SVOX AG Jag gjorde min praktik på företaget SVOX AG, ett företag som bygger och sysslar med TTSmotorer. Företaget bildades våren 2000 och har

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

Upprepade mönster (fortsättning från del 1)

Upprepade mönster (fortsättning från del 1) Modul: Algebra Del 2: Resonemangsförmåga Upprepade mönster (fortsättning från del 1) Anna-Lena Ekdahl och Robert Gunnarsson, Högskolan i Jönköping Ett viktigt syfte med att arbeta med upprepade mönster

Läs mer

Kursbeskrivning med litteraturlista HT-13

Kursbeskrivning med litteraturlista HT-13 Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Kontrastivt arbetssätt med texter på teckenspråk och svenska

Kontrastivt arbetssätt med texter på teckenspråk och svenska Språk-, läs- och skrivutveckling Specialskola åk 1-10 Modul: Tvåspråkig undervisning teckenspråk och svenska Del 6: Att arbeta tvåspråkigt med texter i alla ämnen Kontrastivt arbetssätt med texter på teckenspråk

Läs mer

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk Lokal kursplan i svenska/svenska som andra språk Skriva alfabetets bokstavsformer t.ex. genom att forma eller att skriva bokstaven skriva sitt eget namn forma varje bokstav samt skriva samman bokstäver

Läs mer

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng Humanistiska fakultetsnämnden ÖU2100, Översättarutbildning 1 Magisterutbildning, 60 högskolepoäng Professional Translation 1, 60 higher education credits Avancerad nivå Second Cycle 1. Fastställande Kursplanen

Läs mer

Arkitektur och Regelverk Definition av kodverk och klassifikation. Version 1.0

Arkitektur och Regelverk Definition av kodverk och klassifikation. Version 1.0 Arkitektur och Regelverk Definition av kodverk och klassifikation Version 1.0 Innehållsförteckning 1. Inledning... 3 2. Definitioner... 3 Referenser och underlag... 5 Revisionshistorik Version, datum Författare

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016 Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade

Läs mer

Ordförråd och Ordbildning

Ordförråd och Ordbildning Ordförråd och Ordbildning Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Språkstruktur! Fonologi - fonemens kombinationer till morfem! fonem - minsta betydelseskiljande

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse Dagens föreläsning Semantik VT07 Ordbetydelse (Lexikal semantik) Stina Ericsson 1. Introduktion 2. Extensioner 3. Begrepp 4. Extensioner och begrepp - några ytterligare saker Lexikal semantik: studerar

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Kylan förstärkte alla ljud och lade sig som en osynlig men ogenomtränglig kupa över den (1)domnande staden. Den grep tag i kvällen

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs B

Kommentarer till bedömningsmatris för Tala Kurs B Kommentarer till bedömningsmatris för Tala Kurs B Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla

Läs mer

Kursplan för Moderna språk

Kursplan för Moderna språk Kursplan för Moderna språk Inrättad 2000-07 SKOLFS: 2000:135 Ämnets syfte och roll i utbildningen Utbildningen i moderna språk syftar till att utveckla en allsidig kommunikativ förmåga. Att kunna använda

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet

Läs mer

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande: MODERNA SPRÅK Moderna språk är ett ämne som kan innefatta en stor mängd språk. Dessa kan sinsemellan vara mycket olika vad gäller allt från skriftsystem och uttal till utbredning och användning inom skiftande

Läs mer

Om ämnet Engelska. Bakgrund och motiv

Om ämnet Engelska. Bakgrund och motiv Om ämnet Engelska Bakgrund och motiv Ämnet engelska har gemensam uppbyggnad och struktur med ämnena moderna språk och svenskt teckenspråk för hörande. Dessa ämnen är strukturerade i ett system av språkfärdighetsnivåer,

Läs mer

Användarmanual för mätdatabasen Malin

Användarmanual för mätdatabasen Malin Användarmanual för mätdatabasen Malin Tillväxtverkets databas för resultaten från mätningarna av företagens administrativa kostnader 117 86 Stockholm Besöksadress: Götgatan 74 Telefon: 08-681 91 00. Telefax:

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

U = Underkänd Studenten uppnår inte kunskapsnivån för de förväntade studieresultaten.

U = Underkänd Studenten uppnår inte kunskapsnivån för de förväntade studieresultaten. Betygskriterier för Teckenspråk i teori och praktik II, 30 hp VT17 Kurskod: LITN21 Beslut Dessa betygskriterier är fastställda av styrelsen vid Institutionen för lingvistik 2016-10-11. Betygskriterierna

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

Mobil streckkodsavläsare

Mobil streckkodsavläsare Avdelningen för datavetenskap Martin Persson Jan Eriksson Mobil streckkodsavläsare Oppositionsrapport, D-nivå 2005:xx 1 Generell utvärdering av projektet Projektet gick ut på att undersöka hur bra olika

Läs mer

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas

Läs mer

Grammatisk teori II Attributvärdesgrammatik

Grammatisk teori II Attributvärdesgrammatik Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska

Läs mer

Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen

Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 27 juni 2006 Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen Hans Axelsson, Oskar

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs C

Kommentarer till bedömningsmatris för Tala Kurs C Kommentarer till bedömningsmatris för Tala Kurs C Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Vetenskapligt skrivande. Några råd inför det vetenskapliga skrivandet

Vetenskapligt skrivande. Några råd inför det vetenskapliga skrivandet Vetenskapligt skrivande Några råd inför det vetenskapliga skrivandet Språkverkstaden www.sprakverkstaden.uu.se Engelska parken. Humanistiskt centrum Thunbergsvägen 3 L Rådgivning i svenska och engelska.

Läs mer

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk

Läs mer

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 Ordboken 1 Innehållsförteckning INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 MINIMERA OCH STÄNG... 3 SÖKFÄLT... 4 SÖKRESULTAT... 4 Resultat... 4 Ordklassfärger...

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Förslag den 25 september Engelska

Förslag den 25 september Engelska Engelska Det engelska språket omger oss i vardagen och används inom skilda områden som kultur, politik, utbildning och ekonomi. Kunskaper i engelska ökar individens möjligheter att ingå i olika sociala

Läs mer

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1 Lexikal semantik Lingvistik 1 Uppsala universitet 1 Nyckelord idag Semantiska egenskaper Komponentanalys Prototypteori Relationer mellan ord Kognitiv lexikal semantik Uppsala universitet 2 Semantiska egenskaper

Läs mer

Bedömningsstödet, en beskrivning

Bedömningsstödet, en beskrivning Se den andre Prov- och bedömningsbank inom ett huvudområde av samhällskunskap för grundskolan Bedömningsstödet, en beskrivning Bedömningsstödet.. Samhällskunskap Två för ämnet grundläggande perspektiv

Läs mer

KOMMUNAL KURSPLAN B-SPRÅK C-SPRÅK

KOMMUNAL KURSPLAN B-SPRÅK C-SPRÅK KOMMUNAL KURSPLAN B-SPRÅK C-SPRÅK B- OCH C-SPRÅK - TYSKA / FRANSKA Kraven på goda språkkunskaper ökar ständigt. Att lära sig kommunicera på främmande språk - lyssna, tala, läsa och skriva, är en väsentlig

Läs mer

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015 Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)

Läs mer

Grundläggande syntaktiska funktioner och roller

Grundläggande syntaktiska funktioner och roller UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER/SATSDELAR Grundläggande syntaktiska funktioner och roller o Exemplen nedan kan få illustrera två grundläggande

Läs mer

Kort presentation av Korp, Sveriges nationalkorpus

Kort presentation av Korp, Sveriges nationalkorpus Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,

Läs mer

Jag tror att alla lärare introducerar bråk

Jag tror att alla lärare introducerar bråk RONNY AHLSTRÖM Variabler och mönster Det är viktigt att eleverna får förståelse för grundläggande matematiska begrepp. Ett sätt att närma sig variabelbegreppet är via mönster som beskrivs med formler.

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Svensk grammatik Ordklasser!

Svensk grammatik Ordklasser! Svensk grammatik Ordklasser! Grammatik är läran om ett språk, hur detta språk är uppbyggt och hur det fungerar i tal/skrift. Alla ord betyder något och kan delas in i olika ordklasser. Det finns 9 olika

Läs mer

Upprepade mönster kan talen bytas ut mot bokstäverna: A B C A B C eller mot formerna: Anna-Lena Ekdahl, Högskolan i Jönköping

Upprepade mönster kan talen bytas ut mot bokstäverna: A B C A B C eller mot formerna: Anna-Lena Ekdahl, Högskolan i Jönköping Algebra Del 1 Upprepade mönster Anna-Lena Ekdahl, Högskolan i Jönköping Det är välkänt att barn långt innan de börjat skolan utforskar och skapar mönster på olika sätt och med olika material. Ofta skapas

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden

Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden Kopieringsförbud! Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden Den som bryter mot lagen om upphovsrätt kan åtalas och dömas till böter

Läs mer

Öjersjö Storegård, Partille Kommun, vt-07

Öjersjö Storegård, Partille Kommun, vt-07 Öjersjö Storegård, Partille Kommun, vt-07 Lärandeobjekt: Förmågan att urskilja och tillämpa pronomen i direkt objektsform. Eleverna skulle klara av att översätta från svenska till spanska och tvärtom.

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. (1) Tidigt i gryningen påbörjade han sin (2) förvandling. Han hade (3) noga planerat allting för att (4) ingenting (5) skulle kunna

Läs mer

EUROPEISKA GEMENSKAPERNAS KOMMISSION RAPPORT FRÅN KOMMISSIONEN TILL EUROPAPARLAMENTET OCH RÅDET

EUROPEISKA GEMENSKAPERNAS KOMMISSION RAPPORT FRÅN KOMMISSIONEN TILL EUROPAPARLAMENTET OCH RÅDET >r >r EUROPEISKA GEMENSKAPERNAS KOMMISSION "A- * "A" Bryssel den 15.9.25 KOM(25) 43 slutlig RAPPORT FRÅN KOMMISSIONEN TILL EUROPAPARLAMENTET OCH RÅDET OM MEDLEMSSTATERNAS TILLÄMPNING AV RÅDETS DIREKTIV

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1. UPPSALA UNIVERSITET Datorlingvistisk grammatik I Institutionen för lingvistik och filologi Oktober 2007 Mats Dahllöf http://stp.ling.uu.se/ matsd/uv/uv07/dg1/ Logisk semantik I 1 Lite om satslogik 1.1

Läs mer

ENGELSKA. Årskurs Mål att uppnå Eleven skall:

ENGELSKA. Årskurs Mål att uppnå Eleven skall: 1 SKOLHAGENSKOLAN, TÄBY OMDÖMESKRITERIER 2006-06-15 ENGELSKA Årskurs 6 Mål att uppnå Eleven skall: LYSSNA, TALA Förstå tydligt och enkelt tal samt enkla texter och berättelser. Kunna delta aktivt i enkla

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer

Ett enkelt OCR-system

Ett enkelt OCR-system P r o j e k t i B i l d a n a l y s Ett enkelt OCR-system av Anders Fredriksson F98 Fredrik Rosqvist F98 Handledare: Magnus Oskarsson Lunds Tekniska Högskola 2001-11-29 - Sida 1 - 1.Inledning Många människor

Läs mer

Göra lika i båda leden

Göra lika i båda leden Modul: Algebra Del 6: Sociomatematiska normer Göra lika i båda leden Cecilia Kilhamn, Göteborgs Universitet och Lucian Olteanu, Linnéuniversitetet Ordet algebra kommer från det arabiska ordet al-djabr

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Då jag föddes i juli 1918 hade mor (1) spanska sjukan, jag var i dåligt skick och (2) nöddöptes på sjukhuset. En dag fick familjen

Läs mer