Verbvalenser i teknisk text

Storlek: px
Starta visningen från sidan:

Download "Verbvalenser i teknisk text"

Transkript

1 UPPSALA UNIVERSITET Institutionen för lingvistik Språkteknologiska programmet Examensarbete ht/2001 Verbvalenser i teknisk text en fallstudie Sten Thaning <sten@stp.ling.uu.se> handledare: Anna Sågvall Hein

2 Sammandrag Hur kan man representera verbvalens? I det här arbetet föreslår jag ett representationsformat som baserar sig på koder och mönsterord. Jag beskriver den metod som jag har använt för att ta ut valenserna hos de verb som förekommer i en ord stor korpus med teknisk text från Scania CV AB. Resultatet har blivit ett representationsformat som beskriver bundna led med mönsterord och sex olika typer av tilläggsled med hjälp av koder. Varje lexem tilldelas ett mönsterord och en uppsättning koder, vilka är tänkta att läggas in i en lexikal databas. Användningen av mönsterord för att utrycka valens följer tidigare tradition på institutionen, medan koder för tilläggsleden är ett nytt bidrag till valensbeskrivningen. Enbart de konstruktioner som faktiskt förekommer i korpusen har beaktats. Verbbeskrivningarna är specifika för språket i Scanias manualer, men representationssystemet kan användas för andra domäner och texttyper. Valensinformationen integreras i MATS, ett domänspecifikt maskinöversättningssystem som bygger på MULTRA och som har svenska som källspråk. Verbens valensinformation används vid parsning av källspråket och kommer, efter en framtida eventuell vändning av systemet, även att kunna användas vid generering av text på svenska. Även om drygt hundra mönsterord behövs för en fullständig beskrivning av konstruktionstyperna i materialet, kan de flesta av de undersökta verben beskrivas med några få mönsterord. Arbetet har också inneburit granskning, komplettering och rensning av en svensk ordformsdatabas för Scania. Kompletteringen har skett genom utveckling och tillämpning av ett system för automatisk ordformsgenerering. Systemet bygger på en befintlig paradigmatisk beskrivning av den svenska morfologin. 2

3 Innehållsförteckning Sammandrag 1 Inledning 2 Bakgrund 2.1 Valens Verbvalens Semantisk och syntaktisk valens Verbvalens i maskinöversättning 2.2 Mats-projektet MULTRA Mats-databasen Valens i MULTRA 2.3 Mats-korpusen Språket i Mats-korpusen 3 Syfte 4 Metod 4.1 Förarbete Plocka ut lexem Tokenisering Skapande av en ordformsdatabas Kontext för verb Partikelverb och reflexiva verb Ta bort icke tillämpliga segment Homografer Felaktiga lexem Particip Skriva om meningarna i normalform Imperativ Underförstådda led 3

4 4.2 Analys av data Målsättning Format Beskrivning av verb Beskrivning av bundna led Beskrivning av tilläggsled Bundna led eller tilläggsled? Problem Representation av tilläggsled Samma eller olika verb? 5 Resultat 5.1 Mönsterord 5.2 Tilläggsled 5.3 Problematiska verb 6. Sammanfattning och diskussion 6.1 Sammanfattning 6.2 Diskussion Referenser Appendix I: Mönsterord Appendix II: Lista över verbvalenser 4

5 1 Inledning I den här rapporten kommer jag att beskriva en metod för att ta ut valensinformation för verb i en korpus, och en applikation av resultatet i automatisk maskinöversättning. Arbetet har gjorts inom ramen för Mats-projektet, ett domänspecifikt maskinöversättningssystem som bygger på den transferbaserade prototypen MULTRA. Jag kommer först att beskriva vad valens är för något, samt ge en översikt av de delar av MULTRA, Mats-projektet och Mats-korpusen som är tillämpliga på mitt arbete. Därefter beskriver jag min metod och i vilket format jag har valt att beskriva valens-informationen. Slutligen presenterar jag resultatet och diskuterar problem som uppstått samt hur mitt resultat kan användas. 5

6 2 Bakgrund I det här avsnittet kommer jag att beskriva konceptet valens samt Mats-projektet och Mats-korpusen. 2.1 Valens Olika ord förutsätter respektive utesluter olika typer av komplement. Dessa komplement brukar benämnas som ordets valensled. Främst gäller detta verb, men även substantiv och adjektiv kan i viss mån ha valensled knutna till sig. Svenska Akademiens Grammatik (Teleman 1999: band 1, sid 236) definierar valens som de semantiska eller syntaktiska krav som ett ord (särskilt substantiv, adjektiv eller verb) har på sin omgivning. I detta arbete har jag dock enbart inriktat mig på verbvalens. När man analyserar valens i meningar utgår man från verbet. Det kan inte finnas ett objekt utan ett verb - det är inte objekten som bestämmer att det ska finnas ett subjekt och ett verb, utan verbet som bestämmer huruvida subjekt och objekt ska finnas Verbvalens Verbets valens brukar definieras som dess potential att ingå i relationer med övriga led i satsen. Exempel på led kan vara subjekt och objekt - valensinformationen för ett verb beskriver hur många objekt ett verb kan ha, och vilka ord eller fraser som kan ingå i dessa objekt. Valensinformationen kan dessutom tala om huvuvida verbet inte kan knyta några relationer. Ett verb som accelerera är intransitivt, det vill säga att verbet inte kan ha några objekt knutna till sig - man kan inte brista något. Verbet brista är transitivt, eftersom en sats som innehåller verbet även måste innehålla ett objekt - någon behandlar något. 6

7 Verbet förbinda kräver ett subjekt, ett direkt objekt, prepositionen med och ett indirekt objekt - någon förbinder något med något annat Semantisk och syntaktisk valens Man brukar skilja mellan semantisk valens och syntaktisk valens. I Svenska Akademiens Grammatik är semantisk valens definierat som det valensbärande ordets krav på semantisk roll hos aktörerna. Ett verb som plundra förutsätter exempelvis en aktant som plundrar och en aktant som blir plundrad (Teleman 1999: band 1, sid 236; band 3, sid 283). I sin avhandling om integrerad valensbeskrivning beskriver Maria Toporowska Gronostaj semantisk valens som [verbets] benägenhet att bestämma vissa semantiska relationer med andra begrepp genom att dels implicera existensen av vissa semantiska typer av argument, dels etablera och specificera vissa typer av semantiska förhållanden som råder mellan verbet och argumentet. (Toporowska 1996: sid 8) Syntaktisk valens definieras i Svenska Akademiens Grammatik som det valensbärande ordets konstruktionsschema, dvs. det sätt varpå aktanterna anges just vid detta ord och i vilken mån aktanterna obligatoriskt måste anges vid just detta ord. Den syntaktiska valensen vid ett verb säger således vilken aktant som uttrycks med subjekt och vilka av de eventuella andra aktanterna som anges med objekt eller med bundna adverbial och i så fall med vilken preposition det bundna adverbialet inleds. Den syntaktiska valensen omfattar också, enligt Svenska Akademiens Grammatik, krav på vilken syntaktisk kategori som uttrycken för verbets aktanter tillhör: nominalfraser, prepositionsfraser, nominala bisatser, verbfraser etc (Teleman 1999: band 1, sid 236; band 3, sid ). Hos Toporowska är syntaktisk valens en term för verbets benägenhet att upprätta de syntaktiska funktioner som råder mellan verbet och dess fyllnadsled (Toporowska 1996: sid 132f). Man talar även ibland om pragmatisk valens, där man bland annat delar in verbets aktanter i tema och rema. I mitt arbete har jag i huvudsak beskrivit syntaktisk valens. Vid behov har semantiska särdrag specificerats för aktanter, som kravet att vissa subjekt måste vara animata. En genomgång av semantiska särdrag har gjorts av Jan Hellström på institutionen (Hellström 2001). Dessa kommer att integreras med beskrivningen. Inga försök har gjorts att undersöka pragmatisk valens i detta arbete. 7

8 2.1.2 Verbvalens i maskinöversättning För att utföra regelbaserad maskinöversättning är det nödvändigt att känna till vilka valensrelationer ett verb tillåts ha. Valensinformationen för ett verb i källspråket behöver inte överensstämma med valensinformationen för samma verb i målspråket. 2.2 Mats-projektet Projektet MATS (Methology and Application of a Translation System) är ett samarbete mellan instutitionen för lingvistik på Uppsala Universitet, Scania CV AB och översättningsföretaget Explicon AB. Målet med projektet är att skapa ett system för maskinöversättning av domänspecifik text genom att skala upp det befintliga MULTRA-systemet för en domän och en översättningsriktning. (Sågvall Hein 2001) Multra MULTRA (Multilingual Support for Translation and Writing) är en prototyp för transferbaserad maskinöversättning som har utvecklats på institutionen för lingvistik vid Uppsala universitet och använts för olika uppgifter sedan Den utvecklades för översättning av svenska till engelska och tyska. MULTRA är modulärt uppbyggt, med olika komponenter som har olika uppgifter. (Beskow 1993; Sågvall Hein 1994, 1997) I den plattform som används för Mats-projektet omvandlas den SGML-kodade källtexten till ren text och tokeniseras, varefter varje ord slås upp i en databas (se vidare 2.2.2). Från databasen hämtas information om varje ord; morfosyntaktisk kod och lemma. Multra översätter en mening i taget, och använder sig inte av någon information från tidigare bearbetad text Mats-databasen Databasen i vilken orden slås upp innehåller bland annat information om ordform, stam, lemma, lexem, böjningsmönster samt ordformens morfologiska struktur. Det är en ordformsdatabas, vilket innebär att exempelvis lemmat öppna har 14 ingångar: öppna, öppnar, öppnats etc. Samtliga dessa ingångar har värdet öppna.vb i fältet lemma. Mats-databasen är utvecklad ur Scania Checker Lexical Database, en ordformsdatabas som inrymmer Scanias kontrollerade språk. Se vidare avsnitt (Almqvist & Sågvall Hein 2000) 8

9 2.2.3 Valens i MULTRA MULTRA använder sig redan av valensregler. De täcker dock endast ett begränsat antal verb. För att ge systemet en bättre täckning skulle flera valensregler behövas. 2.3 Mats-korpusen Mats-korpusen består av ungefär ord per språk för vardera svenska, engelska och tyska, uppdelade i för träning av systemet och för evaluering. Den svenska delen består av 53 textfiler, levererade av Scania CV AB. Träningskorpusen för MATS-projektet finns i form av länkade meningar. Jag har utgått från meningar länkade mellan engelska och svenska och tagit ut kontexten för alla verb i korpusen Språket i Mats-korpusen Scania använder sig av ett kontrollerat språk, Scaniasvenska. För att underlätta för de tekniska skribenterna finns ett språkgranskningsverktyg med en tillhörande lexikal databas, Scania Checker samt Scania Checker Lexical Database. Scania Checker kontrollerar att dokumentet inte innehåller några grammatiska felaktigheter eller felaktigt använd vokabulär (Almqvist & Sågvall Hein, 2000). 9

10 3. Syfte med arbetet Min uppgift har varit att beskriva verbvalensen för alla verb i MATSträningskorpusen. Jag vill beskriva valens för verben i MATS-korpusen på ett sådant sätt att informationen kan användas vid framtida regelbaserad maskinöversättning av liknande texter. Valensinformationen ska kunna integreras i lexikonet som används av Multra. I arbetet har även ingått komplettering, granskning och rensning av en ordformsdatabas för Scania. 10

11 4. Metod Målet med uppgiften var att beskriva valensen för samtliga verb i träningskorpusen. För att göra det behövde jag plocka ut kontexten för samtliga verb, sortera dem efter lexem, analysera dessa kontexter och hitta ett lämpligt format som skulle kunna beskriva informationen. 4.1 Förarbete: Insamling av data För att kunna analysera verben i textmaterialet behövde jag ett sätt att plocka ut dem, tillsammans med nödvändig kontext. Dessutom behövde jag avgöra vad som var valensinformation och vad som inte var det. Jag valde att automatiskt sortera alla meningar efter verbets grundform, och därefter manuellt skriva om meningarna i en förenklad form som enbart innehöll den informationen jag letade efter Plocka ut lexem Valensegenskaper hör till alla verbets former och bör knytas till verbets lexem. Det första steget är alltså att för varje ord i korpusen avgöra huruvida det är ett verb samt, om så är fallet, vilket lexem ordet tillhör. Jag skrev ett program (i Perl) som går igenom den svenska delen av MATSträningskorpusen, tar ut varje ord och slår upp dem var för sig i Scanias ordformsdatabas. Om ordet kan tolkas som ett verb lagras hela meningen, kopplad till verbet. Meningar med flera verb sparas flera gånger, kopplade till vart och ett av verben. Eftersom programmet sparar alla ord som skulle kunna vara verb innebär det att det övergenererar, se avsnitt Perl är ett programmeringsspråk som lämpar sig väl för uppgiften, då det är inriktat på stränghantering. I mitt arbete använde jag mig av en textfil som innehöll all information i ordformsdatabasen. Perl har inbyggda kommandon som gör det förhållandevis enkelt att plocka ut lämplig information ur en textfil. När jag hade fått fram kontexter till alla verb sorterade jag resultatet efter verblexem. Vissa meningar upprepades flera gånger i texten. Jag tog bort alla sådana dubletter. Därefter markerade jag partikelverb och reflexiva verb som separata verb, samt tog bort homografer, det vill säga ord som skulle kunna vara verb men som vid en 11

12 kontroll av kontexten inte visade sig vara det (se vidare avsnitt ). Jag tog även bort hjälpverb, då dessa ligger utanför uppgiftens område. Verb som enbart förekommer i participform har jag inte analyserat i valenshänseende Tokenisering Min tokenisering tar inte hänsyn till flerordsenheter, som partikelverb och reflexiva verb. Dessa verb kommer att lagras under huvudordet (befinna sig kommer till exempel att sorteras som befinna) och måste skiljas ut manuellt. Alla sådana verb kommer dock att plockas ut, eftersom huvudordet för samtliga partikelverb och reflexiva verb i databasen även finns med som egna verb. Avstavade ord togs från början hänsyn till genom att bindestreck i slutet på en rad plockades bort och det första ordet på raden nedanför sattes ihop med de sista ordet på raden ovanför. Det visade sig dock att segmenteringen hade medfört att vissa avstavningsbindestreck förekom i mitten av raden, så denna funktion ändrades till att ta bort alla bindestreck. Detta skulle kunna leda till att sammansatta ord med bindestreck, som USA-anpassa, felklassificerades och fördes till fel ord. I praktiken var det dock inte något större problem, eftersom databasen endast innehåller 19 verb med bindestreck. Tre av dessa förekom i materialet, och plockades ut manuellt. Vid en mer omfattande undersökning bör detta problem lösas, antingen genom att hantera avstavningar vid segmenteringen eller genom att slå upp ord både med och utan bindestreck när sådana förekommer inuti ett ord Skapande av en ordformsdatabas Det första steget var alltså att komplettera en ordformsdatabas. Tillsammans med Stina Karlsson (gift Åberg), student på språkteknologiprogrammet, genererade jag på automatisk väg ordformer till Scaniadatabasen så att samtliga ordformer av alla ord med ordklass substantiv, adjektiv, verb, adverb och egennamn fanns med. Ordformsdatabasen var från början ett projekt utanför examensarbetets område men införlivades senare med detta. Vi utgick från de ord som redan fanns i databasen och skapade med hjälp av mönsterord nya ordformer för dessa. För varje lemma i ovan nämnda ordklasser bildades de ord som saknades. Endast i undantagsfall lade vi till nya ord. 12

13 Mönsterord fanns redan angivna i databasen, och en paradigmatisk beskrivning av den svenska böjningsmorfologin fanns på institutionen (Sågvall Hein 1998). Min del av projektet var att skriva ett program som genererade de saknade ordformerna. Detta skrevs i Perl och gav önskat resultat. Stina tog hand om uppgiften att kontrollera befintliga mönsterord och när det behövdes skapa nya. Mycken möda lades ner på att utvärdera den resulterande databasen. Under arbetet fann och åtgärdade vi även vissa fel i utgångsmaterialet, såsom dubletter, felaktigt inlagda ord, och felaktiga poster (Karlsson och Thaning, 2001). Arbetet med databasen gjordes i samråd med Inger Almqvist, språkansvarig på Scania Kontext för verb Om ett ord befanns vara ett verb plockades kontexten ut ur materialet. Träningskorpusen var redan segmenterad och meningslänkad, och resultatet av detta steg blev en lista på alla unika segment i materialet som innehöll en form av ett verb. Jag utgick från den svensk-engelska meningslänkade texten. Vanligtvis består ett segment av en svensk mening, markerad med (1), samt motsvarande engelsk mening, markerad med (2). När två meningar på det ena språket motsvarar en mening på det andra har meningarna länkats 1-2 eller 2-1. I dessa fall har min kontext innefattat hela segmentet. Sammanlagt skapades 8395 segment. Exempel på ett 1-1-segment: reglera.vb: (1) Reglermotorns läge regleras istället med hjälp av värdet på reglermotorns strömförbrukning. (2) The control motor position is regulated instead by means of the control motor power consumption value. Segmentet är länkat till verbet reglera. 13

14 Exempel på ett 2-1-segment: reglera.vb: (1) Styrenheten reglerar reglermotorns pådrag i tre lägen: (1) tomgång, 50% pådrag och 100% pådrag. (2) The control unit regulates the control motor actuation in three positions: idling, 50% and 100% actuation Partikelverb och reflexiva verb Partikelverb och reflexiva verb söktes ut manuellt från sina kontexter. Det visade sig vara mer praktiskt än att sortera in dem som partikelveb direkt. Den automatiska utplockningen sorterade alltså vika, vika tillbaka, vika undan, vika upp och vika ut som vika.vb, och både skapa och skapa sig sorterades under skapa.vb. Jag sorterade manuellt dessa som olika verb, och gav dem var sin valensbeskrivning. En anledning att inte försöka få ut dem direkt är att det kan förekomma ord mellan verbet och dess partikel, som slå alltid av spänningen med startnyckeln. Det är här svårt att hitta slå av utan någon djupare analys. Se avsnitt för en vidare diskussion om vad som betraktas som partikelverb och reflexiva verb Ta bort icke tillämpliga segment Tre typer av segment togs bort: segment länkade till en homograf som inte visade sig vara ett verb, segment länkade till flera verbformer och segment länkade till en icketillämplig verbform. Jag gick igenom samtliga segment manuellt och bedömde för varje segment huruvida det var länkat till rätt verb. Om så inte var fallet raderades segmentet Homografer Vissa ord hade förts till fel lexem, och klassificerats som verb trots att de inte var det. Borstar kan bedömas som presensform av borsta, men det kan även vara pluralformen av substantivet borste. 14

15 Segment som: borsta.vb: (1) För att förbättra tillförlitligheten och livslängden på generatorn, ska regulatorn med borstar (kol) bytas så nära var km som möjligt. (2) To improve the reliability and service life of the alternator, the regulator with (carbon) brushes must be renewed as close to every km as possible. togs alltså bort. Mitt program klassificerade ord som möjliga verb utan att ta någon hänsyn till statistik. Detta ledde exempelvis till en stor mängd segment med ordet för som felaktigt fördes till föra.vb. Om materialet varit större hade det förmodligen varit nödvändigt att ordklasstagga segmenten. En annan möjlighet hade varit att först automatiskt rensa bort misstänkta icke-verb när de förekom i vissa fasta uttryck, som till exempel för att Felaktiga lexem En del ord fördes till mer än ett lemma. Vara klassificerades både som vara4 (böjning vara, var, varit) och vara5 (böjning vara, varade, varat ). (De lexem som har lemmat vara5.vb är vara5.1: pågå under en viss tid, samt vara5.2: utsöndra var. Lemma- och lexemnummer är hämtade från Svensk Ordbok.) Samtliga av de 202 segment som förts till lemmat vara5 visade sig inte representera detta lemma. Det borde dock vara mycket svårt att avgöra detta utan en semantisk analys Particip Participformen uppvisar reducerad valens. Verb som står i particip, som skyddad, fungerar som adjektiv och följer endast delvis valensreglerna för verbet skydda. Jag bedömde att en analys av dessa meningar låg utanför uppgiftens område. Verb där de enda ordformer som förekom i materialet var particip plockades därför bort från materialet som skulle analyseras. Exempel på sådana verb är sammankoppla, specialgänga och fabriksmontera. 15

16 4.1.3 Skriva om meningarna i normalform För att göra analysen konsekvent skrevs alla meningar om i normalform. Med normalform menas en deklarativ sats i aktivum, där satsen enbart innehåller verbspecifika eller verbberoende led. Icke-valensled togs bort. Som valensled räknades bundna led och tilläggsled, det vill säga de led som var knutna till verbet. Satsadverbial, vilka är knutna till hela satsen, räknades inte som valensled. Sålunda skrivs meningarna starta motorn, starta inte motorn och starta den snabba motorn alla om till någon startar motorn. Jag avstod från att behandla meningar där verbet stod i particip Imperativ Imperativsatser har inget subjekt utsatt. Detta gäller för alla typer av huvudverb i imperativsatser och har inte med det enskilda verbet att göra. En metod hade varit att skriva separata valensregler för alla former av varje verb, men detta hade lett till en mängd redundant information. Om verbet leta normalt har valensleden någon letar efter något där någon är subjekt och något ett objekt, kommer satsen i imperativ att lyda leta efter något där något är objekt och subjektet är underförstått. Den här typen av regler är generella och bör ligga bland andra grammatikregler i en parser/generator. Samma resonemang råder för andra verbformer där valensledens utseende skiljer sig från presensformen Underförstådda led. I den analyserade texten förekom ibland underförstådda led. Till exempel kunde subjektet saknas, som i meningen Används inte. I detta fall återfinns valensled i en annan mening än själva verbet. Jag har i sådana fall valt att skriva om meningen med valensled, det vill säga någon använder något i stället för bara någon använder, även om något i detta fall inte fanns refererat till i meningen. Valensregeln för använda kräver alltså att verbet skall ta ett objekt. Det förutses att man i det kontrollerade språket skall kräva att alla valensled är utsatta. Så är dock ännu inte fallet. 16

17 4.2 Analys av data De omskrivna meningarna analyserades med avseende på valensinformation och för varje verb beskrevs vilka möjligheter det har att ingå i relationer med valensled. Resultatet blev en lista över de 689 olika verb som förekommer i texten, med en beskrivning över de olika möjligheterna för valensinformation som varje verb har Målsättning Målsättningen med analysen var att för varje verb plocka ut de valensled som förekommer i det analyserade materialet. Inga försök har gjorts att förutsäga vilka valensled ett verb skulle kunna ta, utan endast vilka led det faktiskt tar. Målet med mitt arbete är att beskriva hur språket används i ett domänspecifikt textmaterial, och språket i domänen överensstämmer inte nödvändigtvis med hela det svenska språket. Resultatet skall kunna ingå i en databas och omvandlas till valensregler i ett program för parsning, generering eller maskinöversättning av svensk domänspecifik text Format För varje verb beskrivs bundna led (obligatoriska och optionella) med hjälp av mönsterord, samt fria led (adverbial) med hjälp av koder. Det finns olika termer för vad jag har kallat bundna led och fria led; Toporowska (1996: sid 134) beskriver ett tjugotal. Jag har i stort sett följt uppdelningen i Svenska Akademiens Grammatik (Teleman 1999: band 3, sid 254f), men betraktar partikeladverbial som en del av verbet (se avsnitt ) Beskrivning av verb När det behövs har varje betydelse av ett verb räknas för sig. Jag följer i huvudsak lexembeteckningen i Svensk Ordbok. Vissa avsteg har dock gjorts. När ett verb kan ta flera valenser har jag delat in det i flera lexem, oavsett hur indelningen i Svensk Ordbok ser ut. I de fall då endast en betydelse förekommer i mitt analyserade material har jag inte tilldelat verbet någon kod, även om verbet har flera beteckningar i Svensk Ordbok. Beröra har alltså inte fått koden beröra[3], eftersom några andra betydelser inte finns i materialet. Partikelverb och reflexiva verb räknas som egna verb; sitta och sitta fast är alltså olika verb. Vad exempelvis Svenska Akademiens Grammatik kallar för partikeladverbial har jag sett som en del av verbet. Det är inte alltid helt uppenbart 17

18 vad som är ett partikelverb och vad som är ett obligatoriskt led. Jag har i huvudsak ansett ett verb som partikelverb om partikeln är betonad; således är följa med ett partikelverb medan vänta med någonting inte är det. För varje verb har jag angett mönsterord och tilläggsled. Mönsterorden innehåller beskrivningar av de bundna leden, medan tilläggsleden anges för varje enskilt verb. Ett typiskt verb har följande utseende: Lemma Mönsterord Tilläggsled klippa av PLUNDRA MRST Lemmat klippa av är verbets infinitivform. I databasen representeras det med klippa.vb+av.pl 1. PLUNDRA är mönsterordet, vilket innebär att klippa av har valenskoden NP _ NP. PLUNDRA är mönsterord för enkla transitiva verb. Detta är det vanligaste mönsterordet och koden motsvarar meningar som någon klipper av något. Objektet är obligatoriskt. Se avsnitt för en beskrivning av bundna led. MRST betyder att klippa av kan ta tilläggsled av typ Measure, Loc, Manner och Temp (se avsnitt för en beskrivning av dessa.) Tilläggsled är optionella, och flera tilläggsled kan förekomma för samma verb i samma mening. Om ett verb tar mer än ett tilläggsled kan dessa komma i vilken ordning som helst. Jag har i sådana fall angett dem i bokstavsordning. Till grund för denna beskrivning har legat en analys av samtliga förekomster av verbet klippa av i träningskorpusen. Exempelvis förekommer följande meningar: klippa.vb: (1) Klipp av ledningens ytterhölje ca. 7 cm och trä på en 5 cm lång krympslang. (2) Cut off the cable sheath approx. 7 cm and slip a 5 cm long shrink hose on to it. 1 Jag har valt att beskriva verben utan verbkod för att göra det mer överskådligt. Alla verb betecknas med.vb. 18

19 klippa.vb: (1) Se till att ledningen är spänningslös, klipp sedan av den strax bakom kontaktstycket. (2) Make sure that the lead is not supplied with voltage, then cut it immediately behind the connector. Dessa har analyserats som NP klipper NP M respektive NP klipper NP T,S Inga tilläggsled är ömsesidigt uteslutande, alla kan alltså förekomma tillsammans. Jag har inte sett några tecken på att förekomsten av vissa tilläggsled ökar sannolikheten för förekomsten av andra tilläggsled Beskrivning av bundna led Bundna led kan vara obligatoriska eller optionella. Jag har placerat optionella led inom <klamrar>. Se avsnitt De bundna leden kan vara av typen NP, FS, ADJ, ADV, BISATS eller PP. Nedan följer en beskrivning av de olika typerna. NP: Nomen, nominalfraser, pronomen och egennamn. I valenssammanhang är dessa kategorier oftast utbytbara. De kan exempelvis vanligtvis fungera som subjekt i en mening. Hur nominalfrasen kan se ut har jag inte gått in närmare på i min beskrivning, som förutsätter att den grammatik som används har en lämplig metod för sådant. Ett NP kan specificeras ytterligare med hjälp av hakparenteser; en nominalfras i plural beskrivs som NP[plur] och ett egennamn beskrivs som NP[PNOUN]. Underkategorier till NP som jag har använt är plur (plural), anim (animat), measure och PNOUN (egennamn). Jag har bara angivit underkategorier när jag har bedömt att de är nödvändiga. FS är formellt subjekt, det vill säga Det. Det har jag betraktat som formellt subjekt endast när det inte kan bytas ut mot någon annan nominal. ADJ: Adjektiv, adjektivfraser eller participformer som fungerar som adjektiv. ADV: Obligatoriska adverb. De specificeras som ADV[loc], ADV[temp] etc. ADV fungerar som motsvarande tilläggsled, förutom att de inte är optionella. 19

20 BISATS: Anges med startord inom klamrar. BISATS[att] har dock beskrivits som ATT-sats. Om flera startord förekommer har de angivits skilda åt av snedstreck, exempelvis betyder BISATS[om/när] att bisatsens första ord kan vara om eller när. PP: Prepositionsfras, där preposition eller typ av preposition har angivits inom hakparenteser. De typer jag har använt är riktning och befintlighet. Om flera prepositioner har förekommit har de skilts åt av snedstreck. I fasta uttryck har prepositionerna skrivits ut, som exempelvis i ta kommandot : NP _ över NP Beskrivning av tilläggsled Tilläggsleden kan vara av sex olika slag: E = Means D = Degree M = Measure L = Loc A = Manner T = Temp Means: medlet för verbets aktion. Exempel är genom att, med hjälp av, experimentellt. Om man kan skriva om uttrycket med med hjälp av har jag betraktat det som ett uttryck av typen Means. Degree: aktionens grad. Exempel: fullständigt, helt och hållet, mindre än X Measure: angivna måttenheter eller storlekar. Exempel 7 cm, 5 bar. Loc: rumsadverbial, exempelvis i felkodslistan, på styrenheten. Manner: en egenskap hos verbets aktion. Exempel: långsamt, utan att startspänningen bryts. Temp: tidsadverbial, exempelvis i två minuter, när oljetrycket uppnår 3 bar. Measure, Loc, Manner och Temp är kategorier som redan används av systemet. De kallas Mått, Rum, Sätt och Tid i Svenska Akademiens Grammatik (Teleman: band 3, sid 495f). Means och Degree (vilka Svenska Akademiens Grammatik kallar Medel och Grad) har jag lagt till. 20

21 Alla adverbial som är möjliga för varje verb finns uppenbarligen inte i materialet, men jag har bara kodat de som faktiskt finns där. När nya tilläggsled för ett verb upptäcks i nytt material bör verbets beskrivning i databasen kompletteras Bundna led eller tilläggsled? I vissa fall kan bundna led och tilläggsled likna varandra. I meningen styrenheten hamnar i systemläget är i systemläget ett bundet led (i NP), men i någon håller strömställaren intryck i minst 1 sekund är i minst 1 sekund ett tilläggsled (Temp). Skillnaden är att i minst 1 sekund inte är knutet till verbet hålla utan till hela satsen. Man kan säga Någon håller strömställaren intryckt. Det gör han i minst 1 sekund, men inte Styrenheten hamnar. Det gör den i systemläget Problem Under arbetets gång uppstod vissa problem. Dels visade det sig vara svårt att representera de möjliga valensleden enbart med mönsterord, och dels uppstod frågan om ett verb med flera olika möjligheter till bundna valensled skulle representeras som ett eller flera ord Representation av tilläggsled Om tilläggsleden uttrycks som kategorikoder i databasen i stället för att uttryckas i mönsterorden blir antalet mönsterord betydligt Mindre. Intransitiva verb med mönsterord ACCELERERA för bundna led, det vill säga NP _, har i det analyserade materialet 22 olika möjligheter för tilläggsled: Bundna led Tilläggsled NP_ NP _ Loc NP _ Manner NP _ Temp NP _ Degree, Manner NP _ Means, Manner NP _ Means, Temp NP _ Measure, Manner NP _ Measure, Temp NP _ Loc, Manner 21

22 NP _ NP _ NP _ NP _ NP _ NP _ NP _ NP _ NP _ NP _ NP _ NP _ Loc, Temp Manner, Temp Degree, Means, Loc Degree, Measure, Temp Degree, Temp, Manner Means, Loc, Manner Means, Manner, Temp Loc, Manner, Temp Degree, Measure, Loc, Temp Measure, Loc, Manner, Temp Means, Loc, Manner, Temp Grad, Measure, Loc, Manner, Temp De flesta av dessa 22 möjligheter illustreras endast av ett belägg. Ett annat argument för att uttrycka tilläggsleden som särdrag är att det analyserade materialet är ganska litet - många verb förekommer endast en eller ett fåtal gånger, vilket gör att adverbialförekomsten ibland blir mer eller mindre godtycklig. Exempelvis finns både trycka ner och trycka ned med i materialet, men medan trycka ner har DMAT som adverbial har trycka ned bara LA. (De har samma mönsterord; PLUNDRA.) En inte alltför vågad gissning skulle vara att dessa verb egentligen borde vara utbytbara, och att trycka ned förmodligen skulle förekomma tillsammans med adverbialen D, M och T i en större korpus. Om det blir vanligt att öka antal godkända adverbial i framtiden är det betydligt lättare att ändra på särdrag än att byta mönsterord Samma eller olika verb? Verbet Bromsa förekommer med flera lexembetydelser: minska hastigheten (här representerat som bromsa[1] ) eller få någonting att minska hastigheten (här representerat som bromsa[2].) Skillnaden finns inte i SOB. Bromsa skulle antingen kunna uttryckas som Lemma Mönsterord Tilläggsled bromsa[1] ACCELERERA DEL bromsa[2] PLUNDRA E 22

23 (där ACCELERERA har valensramen NP _ och PLUNDRA har NP _ NP ), eller så skulle det kunna beskrivas med valensramen: bromsa NP _ <NP> DEL (givetvis med användande av lämpligt mönsterord, förslagsvis BROMSA.) <NP> betyder då att objektet är optionellt. Alla tilläggsled är alltid optionella, så ingen särskild hänsyn behöver tas till dessa. En fördel med att urskilja två olika verblexem är att detta avspeglar att bromsa har olika betydelser beroende på om verbet används intransitivt eller transitivt. Om de olika betydelserna har olika översättningar finns det en poäng i att hålla isär orden. Ett exempel är stämma, som när det har valensramen NP[plur] _ översätts med correspond, men när det har valensramen NP _ med NP översätts med agree with eller be consistent with Det är också möjligt att adverbial som är möjliga för den ena varianten inte kan användas för den andra. En annan fördel är att antalet mönsterord blir mindre. Fördelen med att uttrycka det som ett verb är att antalet verb i databasen blir mindre, även om mönsterorden blir fler. (Mönsterorden blir 22 fler om optionella led tas med, medan verben i databasen blir 52 färre). Dessutom sparar översättningsprogrammet möjligen tid på att slippa slå upp två verb, med var sin möjlig analys. Det är inte uppenbart i databasen vilken betydelse av ordet som avses, och det blir fler regler för programmet att ta hänsyn till. Varje gång en mening med bromsa ska parsas kommer både bromsa[1] och bromsa[2] att läsas in, om de finns representerade i databasen. Jag har för närvarande valt att så långt som möjligt uttrycka verb med optionella led istället för att beskriva dem som olika verb. Undantag har gjorts när en sådan beskrivning skulle bli alltför komplicerad. Ett sådant exempel är bli på sidan Valens över meningsgränser Som regel finns valensaktanter inom en ortografisk mening. På grund av textens natur och meningssegmenteringen hände det att ett verb hamnade i ett annat segment än sina aktanter. I en lista förekom exempelvis segmenten Kontinuerlig gasreducering 2. Används inte. 23

24 5 Resultat De 689 verben har förts till 105 mönsterord. För att detta resultat ska bli användbart bör de två beskrivningarna för varje verb, mönsterord och tilläggsled, läggas in i en databas. Mönsterorden bör kopplas till var sin beskrivning över mönsterordens valens, åtkomlig för programmet som skall använda sig av den. 5.1 Mönsterord Frekvens: Mönsterord Frekvens PLUNDRA 365 ACCELERERA 81 BROMSA 17 ANPASSA 16 BETYDA 14 INNEBÄRA 14 HÄLLA 13 FRIKOPPLA 8 FÖRBINDA 6 KLICKA 6 ÅTERGÅ 6 INGÅ 5 BENÄMNA 4 ERSÄTTA 4 KLISTRA 4 LIGGA 4 INDIKERA 3 KOMMUNICERA 3 LOSSA 3 SLIRA 3 STÅ 3 TA UR 3 VIKA 3 BESTÅ 2 BESTÄMMA 2 FORTSÄTTA 2 GÅ TILL 2 HAMNA 2 HÖRA 2 PASSA 2 REAGERA 2 RINNA 2 RYMMA 2 24

25 SE EFTER 2 TOLKA 2 VILA 2 ALSTRA 1 ANSLUTA 1 BEARBETA 1 BEHÖVA 1 BERO 1 BLÅSA 1 BORTSE 1 BÖJA UT 1 BÖRJA 1 DELA 1 DIMENSIONERA 1 DRAGA 1 FALLA 1 FLYTTA 1 FLYTTA SIG 1 FLÖDA 1 FÄSTA 1 FÖRA IN 1 FÖRA ÖVER 1 GÅ 1 HETA 1 HOPPA 1 HÄNDA 1 HÄNVISA 1 INDELA 1 INFORMERA 1 KONTROLLERA 1 KÄNNA AV 1 KÄNNA EFTER 1 KÄNNA TILL 1 LETA 1 LIKNA 1 LYSSNA 1 LÄSA 1 LÄSA AV 1 MULTIPLICERA 1 OBSERVERA 1 PALLA 1 PÅMINNA 1 RESULTERA 1 RIKTA 1 SE TILL 1 SE UPP 1 SE UT 1 SITTA 1 SLÅ UR 1 25

26 SPÄNNA FAST 1 STICKA IN 1 STUKA 1 STYRA 1 STYRA UT 1 STÅ I PROPORTION TILL 1 STÄMMA 1 SVARA 1 TA KOMMANDOT 1 TILLVERKA 1 TVINGA 1 TYCKA 1 TÄNKA 1 TÖMMA 1 UPPLEVA 1 UTSÄTTA 1 VARNA 1 VETA 1 VISA 1 VRIDA 1 VÄNTA 1 VÄXLA 1 Av de 105 mönsterorden används 68 (65 %) endast av ett verb. Det absolut vanligaste mönsterordet är PLUNDRA, vilket över hälften av alla verb (363 av 689, det vill säga 53 %), tillhör. Det skulle gå att minska antalet mönsterord genom att ta bort de mönsterord som har optionella bundna led, men detta skulle innebära andra problem, vilket beskrivs i avsnitt Tilläggsled Frekvens: Tilläggsled Frekvens Inget 186 T 114 L 62 A 40 E 38 LT 32 AT 23 ET 17 ELAT 15 ELA 14 26

27 EA 13 LA 13 EL 12 EAT 11 ELT 9 LAT 9 MT 7 D 5 DAT 4 ED 3 EDLAT 3 EDAT 3 DM 3 MLAT 3 EDMLT 2 EDLA 2 EDA 2 EML 2 EMLA 2 EMLAT 2 EMLT 2 DMLA 2 DMAT 2 DLA 2 DA 2 EDM 1 EDL 1 EMT 1 DEL 1 DMLAT 1 DMLT 1 DMT 1 DLT 1 M 1 ML 1 MA 1 MAT 1 ALT 1 Av de 64 möjliga kombinationerna av tilläggsled förekom 48 bland de undersökta verben. Det vanligaste är att ett verb inte tar något tilläggsled alls, vilket kan förklaras av att materialet består av instruktioner, ofta med korta meningar. Många verb förekom få gånger i materialet, vilket kan leda till att möjliga tilläggsled inte förekommer, även om det egentligen är tillåtet för vissa verb. En genomgång av ett större material skulle antagligen fylla på tilläggsled i verbbeskrivningarna. 27

28 5.3 Problematiska verb Jag stötte på 16 verb som inte utan vidare lät sig klassificeras: Avgöra: NP _ BISATS I materialet uppträder avgöra på följande sätt: Systemet avgör på vilket varv motorn befiner sig. Den har svårt att avgöra vilken felkod som ska presenteras. Styrenheten avgör var i kretsen felet ligger. Styrenheten avgör om detta beror på avbrottet. Det är svårt att här dra några slutsatser om vilken typ av bisats som ska följa på avgöra. Till skillnad från andra mönsterord har detta alltså inte fått något specificerat startord. Eventuellt skulle koden helt enkelt kunna bli NP _ BISATS[på vilket/vilken/var/om]. Bete sig: NP _ ADV[manner] I materialet uppträder bete sig alltid som det fasta uttrycket Hur något beter sig. Nedan beskrivs hur motorn beter sig när respektive funktion är inkopplad. Nedan kan du läsa om hur motorn beter sig när respektive funktion är inkopplad 28

29 Jag har skrivit om meningarna till motorn beter sig sålunda och alltså gett mönsterordet BETE SIG, beskrivningen NP _ ADV[manner]. En annan möjlighet vore att se hur något beter sig som ett fast uttryck och ge det valensramen hur NP _. Bli: Förutom att vara ett hjälpverb kan bli förekomma i tre olika valenssituationer: NP _ NP[measure] Åtdragningsmoment blir 1400 Nm. Trycket blir högre än 31.4 bar. NP _ ADJ Om bromspedalen trampas ner vid mätning av sjunkande tryck, blir mätresultatet felaktigt. (Mätresultatet blir felaktigt) Tomgångsvarvtalet blir normalt när kylvätskan har uppnått C (Tomgångsvarvtalet blir normalt) FS _ NP Det blir ett spel mellan pinjong och kronhjul (Det blir ett spel) Observera att den sista meningen inte kan skrivas om till ett spel blir. Bli borde alltså få tre olika mönsterord. Det skulle givetvis vara möjligt att slå ihop valensramarna till FS/NP _ ADJ/NP, men då går information förlorad. Alla förekomster av bli i materialet överensstämmer med lexemnummer 1 i Svensk Ordbok. 29

30 Finnas: NP _ PP Distansringar finns i längderna 11,00, 11,02, 11,04, 11,06 och 11,08 mm. (distansringar finns i längderna) FS _ NP Det finns en bränsletrycksgivare per bank. Det finns en enhetsinsprutare för varje cylinder. Även här har jag bedömt det som nödvändigt att beskriva verbets valens med mer än en valensram. Hålla: Hålla kan ha flera typer av valenser: NP _ NP Dela på tryckluftkopplingen på motorns vänstra sida och lossa fästet som håller kopplingen. (fästet håller kopplingen) Håller man längre än 3,0 sekunder hamnar system-läge (sic!). (man håller något) Jag har här betraktat längre än 3,0 sekunder som tilläggsled av typen Temp, och ansett att objektet i satsen är underförstått. 30

31 NP _ NP PP Genom att hålla gaspedalen i kick-down-läge kan man undvika att motorn tappar kraft vid uppväxling i motlut. (någon håller gaspedalen i kick-down-läge) Ta bort de fyra nedersta muttrarna som håller växeln vid bakaxelbryggan. (muttrarna håller växeln vid bakaxelbryggan) Detta skulle man kunna se som samma verbkonstruktion som den ovan ( i kick-downläge är då ett tilläggsled av typ Manner och vid bakaxelbryggan är av typen Loc), eller så skulle man kunna se dem som bundna led. Problemet med att se i kick-downläge och vid bakaxelbryggan som ett tilläggsled är att verbet håller ändrar betydelse om meningen skrivs om till någon håller gaspedalen/växeln. NP _ NP på plats Sätt dit distansbrickorna 27, lite fett håller distansbrickorna på plats. (fett håller brickorna på plats) Att hålla någonting på plats har jag ansett vara ett fast uttryck. Det skulle även kunna ingå i det allmäna prepositionsobjektet ovan. NP _ NP ADJ Bränsletrycket i systemet hålls konstant med en överströmningsventil. (något håller trycket konstant) 31

32 Komma: Även komma har flera möjliga valenskonstruktioner: NP _ ATT-sats Annars kommer instrumentet att visa fel varvtal. (instrumentet kommer att visa fel) NP _ ADV De långa blinkningarna, som kommer först, räknas som tiotal. (blinkningarna kommer först) Eventuellt kan först ses som ett tilläggsled. NP _ PP En styrenhet gör ungefär samma sak med de meddelanden som kommer genom en CAN-ledning. (meddelanden kommer genom en CAN-ledning) Se till så att de vita markeringarna kommer i rätt läge. (markeringarna kommer i rätt läge) Dra upp den och skär av den så att den kommer tre mm innanför tankanslutningen. (den kommer innanför tankanslutningen) Se till att hävarmarna kommer mitt för hålen för strömställaren och kolven. (hävarmarna kommer mitt för hålen) Kolvarna i enhetsinsprutaren följer vipparmens rörelse uppåt tills den nedre kolven kommer till sitt översta läge (kolven kommer till sitt översta läge) 32

33 När det kommer värme ur värmepaketet är systemet urluftat och värmarren kan startas. (värme kommer ur paketet) Många olika prepositionsobjekt kan som synes förekomma, vilket gör att jag inte har angett någon begränsning för prepositionsobjektet. Komma ihåg: NP _ ATT-sats Om motorn stoppas under en gångtidscykel kommer pumpen ihåg detta i 5 dygn Här har jag skrivit om meningen till pumpen kommer ihåg att motorn stoppas. Det är möjligt att en parser skulle ha svårt att tolka detta. Lämna ifred: NP lämnar NP ifred Lämna diagnosströmställaren ifred för ögonblicket; nu har testprogrammet gått igång. Den här meningen bör skrivas om till någon lämnar något ifred. Det enda sättet att representera detta skulle vara att skriva NP _ NP ifred för verbet lämna. Det är olyckligt, eftersom lämna redan har en valenskod. 33

34 Löpa: NP _ fritt NP _ mot NP Det är möjligt att löpa fritt bör ses som ett partikelverb. I så fall kan skulle både löpa och löpa fritt få enkla valensregler. En annan möjlighet är att se fritt som tilläggsled av typen Manner, och alltså ge löpa valenskoden NP _ <mot NP>. Peka: NP _ på NP Justera glidmätskalan så att lasern pekar på 0-linjen. (lasern pekar på linjen) NP _ åt NP Skriv in 2,5 i den ruta för det håll axeln pekar åt, i exemplet till höger. (axeln pekar åt något håll) NP _ [riktning] Vid nya bromsbelägg pekar visaren i fordonets framriktning och vid utslitna bromsbelägg pekar den rakt neråt. I det understa exemplet skulle man kunna beskriva valensen med NP _ och se i fordonets framriktning och neråt som tilläggsled. Problemet är dock att en sådan beskrivning skulle tillåta visaren pekar. En annan möjlighet är att beskriva alla meningarna med NP _ PP. 34

35 Skilja: Skilja har flera olika valensmöjligheter: NP _ Om beläggens tjocklek skiljer mer än 3 mm på samma axel, ska hjulbromsen kontrolleras. (tjockleken skiljer) Här är antagligen måttangivelsen obligatorisk. NP _ NP åt Blink-serierna skiljs åt av tydliga uppehåll. (någon skiljer blinkserierna åt) NP _ mellan NP[plur] Om laddningen skiljer mellan batterierna, (laddningen skiljer mellan batterierna) NP _ NP från NP Om spärrhylsan behöver tas isär, ta ur spårringen 46 och lagerbrickorna 45 och skilj spärrhylsan från tryckringen 44. (någon skiljer spärrhylsan från tryckringen) NP _ på NP[plur] Det är ofta svårt att skilja på orsak och verkan i dessa fall. (någon skiljer på orsak och verkan) 35

36 Skilja sig: NP[plur] _ Om laserns träffar skiljer sig mer än 1 mm på 6 m avstånd, ska den justeras. (träffarna skiljer sig) Det är möjligt att måttangivelsen är obligatorisk även här. NP _ från NP Eftersom denna beskrivning behandlar flera närbesläktade modeller av växellådor, kan utseendet på komponenter skilja sig något från det som visas på bilderna. (utseendet skiljer sig från utseendet) NP _ mellan NP[plur] Hastigheten måste vara minst km/h (hastighetsgränsen skiljer sig mellan olika motortyper) för att farthållaren ska kunna användas. (hastighetsgränsen skiljer sig mellan motortyper) Sätta på plats: Jag är inte säker på om sätta på plats ska betraktas som ett partikelverb, som ett fast uttryck eller som verbet sätta med på plats som tilläggsled. Smörj cylindern med fett och sätt den på plats. (någon sätter cylindern på plats) Sätt den nya fjädern på plats i den nya insatsen. (någon sätter fjädern på plats) 36

37 Om sätta på plats betraktas som ett verb uppstår samma problem som för lämna i fred, nämligen att det inte går att representera i mitt format. Ett argument för att se på plats som ett eget led är att det även förekommer efter sätta dit : Sätt dit avgasröret på plats tillfälligt och markera avgasrörets konturer i isoleringen. Ta: Något förvånande var att verbet ta, som förekom 272 gånger i materialet, inte en enda gång uppträdde som ett vanligt transitivt verb. De allra flesta förekomsterna var när ta ingick i ett partikelverb, som ta bort, ta fram etc. Som enskilt verb förekom det dock i två konstruktioner: NP _ NP på allvar Från och med nu när länkstången är justerad kan eventuella felkoder tas på allvar. (någon tar felkoder på allvar) NP _ NP ur NP Hylsa tas inte ur kontaktdonet. (någon tar hylsan ur kontaktdonet) Trycka: Verbet trycka förekom med olika valenser: NP _ på NP Bromsverkan ökar ju hårdare du trycker på bromspedalen. (någon trycker på bromspedalen) 37

38 NP _ NP PP Kontrollera remspännaren genom att sakta trycka den i riktning från remmen tills det tar stopp. (någon trycker remspännaren i rikting från remmen) Matarpumpen trycker bränslet genom bränslefiltret och bränsleavstängningsventilen. (matarpumpen trycker bränslet genom bränslefiltet) NP _ NP [riktning] Den mittre kolven trycks hydrauliskt, av bränslet, nedåt och kommer i kontakt med den undre kolven. (bränslet trycker kolven nedåt) endast tryckas neråt eller hållas stilla (någon trycker något neråt) Visa sig: Jag är inte helt säker på hur valensregeln för visa sig ska beskrivas. Den enda förekomsten i materialet var: När felen i felkodstabellen är angivna med tre olika varianter på kontrollampans status beror detta på att det kan visa sig olika beroende på exempelvis om bussen rullar eller står stilla. (något visar sig olika) Eventuellt ska något bytas ut mot ett formellt subjekt; det är möjligt att det visar sig är ett fast uttryck. Jag vet inte heller om olika ska betraktas som ett bundet valensled. Det bästa vore kanske att beskriva visa sig som NP _ ADJ, men det skulle vara bra med fler exempel. 38

39 6. Sammanfattning och diskussion 6.1 Sammanfattning I det här arbetet föreslår jag ett representationsformat som baserar sig på koder och mönsterord. Jag beskriver den metod som jag har använt för att ta ut de syntaktiska valenserna hos de verb som förekommer i en ord stor korpus med teknisk text från Scania CV AB. Resultatet har blivit ett representationsformat som beskriver bundna led med mönsterord och sex olika typer av tilläggsled med hjälp av koder. Varje lexem tilldelas ett mönsterord och en uppsättning koder, vilka är tänkta att läggas in i en lexikal databas. Användningen av mönsterord för att utrycka valens följer tidigare tradition på institutionen, medan koder för tilläggsleden är ett nytt bidrag till valensbeskrivningen. Enbart de konstruktioner som faktiskt förekommer i korpusen har beaktats. Verbbeskrivningarna är specifika för språket i Scanias manualer, men representationssystemet kan användas för andra domäner och texttyper. Valensinformationen integreras i MATS, ett domänspecifikt maskinöversättningssystem som bygger på MULTRA och som har svenska som källspråk. Verbens valensinformation används vid parsning av källspråket och kommer, efter en framtida eventuell vändning av systemet, även att kunna användas vid generering av text på svenska. Även om drygt hundra mönsterord behövs för en fullständig beskrivning av konstruktionstyperna i materialet, kan de flesta av de undersökta verben beskrivas med några få mönsterord. Arbetet har också inneburit granskning, komplettering och rensning av en svensk ordformsdatabas för Scania. Kompletteringen har skett genom utveckling och tillämpning av ett system för automatisk ordformsgenerering. Systemet bygger på en befintlig paradigmatisk beskrivning av den svenska morfologin. 5.4 Diskussion av resultatet. Av de 689 olika verben har jag haft problem med att beskriva 16. Dessa 16 verb bör kanske få flera ingångar i databasen, eller så kan man skriva särskilda regler för dem. I två av fallen sätta på plats och lämna i fred är det möjligt att mitt representationsformat är för begränsat. 39

40 Trots detta tror jag att mitt föreslagna resultat är bra. De allra flesta av verben låter sig utan större problem beskrivas i min modell. Majoriteten hamnar under några få mönsterord. Att använda sig av både mönsterord och särdragskoder har dessutom fördelen att man lätt kan implementera bundna led och tilläggsled var för sig. Eftersom dessa typer av led uppför sig på olika sätt skulle det kunna vara en fördel att hantera dem på olika ställen. Även om modellen är generell är beskrivningen av de 689 verben specifik för textmaterialet. Med ett större material i samma domän skulle förmodligen en hel del av beskrivningarna behöva utökas. Främst tror jag att detta gäller tilläggsleden. Det är dock inga större problem att uppdatera en beskrivning. Om man skulle undersöka en annan domän är det mycket möjligt att beskrivningarna skulle skilja sig betydligt. Det undersökta textmaterialet har varit tekniska manualer, och de lägger stor vikt vid till exempel beskrivningar av föremåls exakta läge och tidpunkten för händelser. En dagstidningstext eller en skönlitterär text av samma storlek kanske innehåller betydligt färre rums- och tidsadverbial. Jag har dock inte gjort någon jämförelse av detta. I framtiden bör undersökningen utökas så att även participformer undersöks. Valensinformation kan användas till parsning och generering av text, vilket gör det användbart vid maskinöversättning. Man skulle även kunna använda sådan information till system för informationsextraktion, där det kan vara användbart att veta vilken information som hör till vilket verb. Min beskrivning av verbvalens är syntaktisk och beskriver valensled som fraskategorier. Den bör tolkas i termer av grammatiska relationer i samband med att den integreras i maskinöversättningssystemet. 40

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade

Läs mer

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala

Läs mer

Satslära introduktion

Satslära introduktion Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen

Läs mer

Grundläggande syntaktiska funktioner och roller

Grundläggande syntaktiska funktioner och roller UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER/SATSDELAR Grundläggande syntaktiska funktioner och roller o Exemplen nedan kan få illustrera två grundläggande

Läs mer

Grammatisk teori III Praktisk analys

Grammatisk teori III Praktisk analys Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. (1) Tidigt i gryningen påbörjade han sin (2) förvandling. Han hade (3) noga planerat allting för att (4) ingenting (5) skulle kunna

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv10/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2010 Satser Satserna utgör den mest mångfacetterade

Läs mer

Förord KERSTIN BALLARDINI

Förord KERSTIN BALLARDINI Förord Det här häftet är avsett för dig som redan har ett visst ordförråd i svenska, men som behöver få en klar bild av vilka typer av satser som finns i språket, vilka former de har och vilken funktion

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Då jag föddes i juli 1918 hade mor (1) spanska sjukan, jag var i dåligt skick och (2) nöddöptes på sjukhuset. En dag fick familjen

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

Grammatisk teori II Attributvärdesgrammatik

Grammatisk teori II Attributvärdesgrammatik Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Lingvistik IV Konstituenter och frasstruktur

Lingvistik IV Konstituenter och frasstruktur Lingvistik IV Konstituenter och frasstruktur Dagens föreläsning kommer att ta upp: Konstituenter (Fraser och satser) Fraser Frasstrukturer 1. Konstituenter När vi tittar på hur en mening är uppbyggd kan

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ är konstruktioner (fraser) som innehåller ett predikat och ett subjekt (Josefssons, s. 151, definition, som är en vanlig definition).

Läs mer

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till. o Ofta fogas

Läs mer

Språkets struktur och funktion, 7,5 hp

Språkets struktur och funktion, 7,5 hp Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. En dag upptäcker min treåriga dotter (1) att det finns kärnor i äpplen. En snabb (2) genomgång av hur och varför visar (3) sig bli

Läs mer

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas

Läs mer

Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden

Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden Kopieringsförbud! Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden Den som bryter mot lagen om upphovsrätt kan åtalas och dömas till böter

Läs mer

Språkgranskningsverktyg, vt 2009

Språkgranskningsverktyg, vt 2009 , vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2 Kontrollerat språk Delmängd av naturligt språk Restriktioner

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Mening. Sats. Huvudsats. En mening: Jag gillar kaffe men jag gillar inte te. En mening börjar med stor bokstav och slutar med.! eller?

Mening. Sats. Huvudsats. En mening: Jag gillar kaffe men jag gillar inte te. En mening börjar med stor bokstav och slutar med.! eller? Mening En mening: Jag gillar kaffe men jag gillar inte te. En mening börjar med stor bokstav och slutar med.! eller? Sats Jag gillar kaffe men jag gillar inte te. är en mening men 2satser. En sats har

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Kylan förstärkte alla ljud och lade sig som en osynlig men ogenomtränglig kupa över den (1)domnande staden. Den grep tag i kvällen

Läs mer

Kursbeskrivning med litteraturlista HT-13

Kursbeskrivning med litteraturlista HT-13 Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,

Läs mer

Ordklasser och satsdelar

Ordklasser och satsdelar Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera

Läs mer

Convertus - kursplaneöversättning

Convertus - kursplaneöversättning Utbildningsavdelningen 2017-10-25 Convertus - kursplaneöversättning Innehåll Om Convertus kursplaneöversättning... 2 Så fungerar det... 2 Tre olika användarroller... 2 Arbetsgång... 3 Filnamn... 3 1. Beställa

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Språkliga basresurser i

Språkliga basresurser i Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 3 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Lingvistik V Satsdelar, huvud- och bisatser

Lingvistik V Satsdelar, huvud- och bisatser Lingvistik V Satsdelar, huvud- och bisatser 1. Form och funktion I språklig analys gör man en skillnad mellan en konstituents form, dvs hur den är morfologiskt och syntaktiskt uppbyggd, och dess funktion,

Läs mer

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation

Läs mer

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016 Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form. SALDO Beskrivningen av SALDO finner du på adressen http://spraakbanken.gu.se/saldo För att söka i SALDO går du till den här adressen: http://spraakbanken.gu.se/ws/saldo-ws/fl/html En ruta kommer upp och

Läs mer

ANDREAS ISSA SVENSKA SPRÅKET

ANDREAS ISSA SVENSKA SPRÅKET ANDREAS ISSA SVENSKA SPRÅKET Kopieringsförbud! Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden. Den som bryter mot lagen om upphovsrätt kan

Läs mer

Delprov A. Språkform och språknorm (2014) RÄTTNINGSMALL

Delprov A. Språkform och språknorm (2014) RÄTTNINGSMALL 1 MÅLSPRÅK SVENSKA Delprov A. Språkform och språknorm (2014) RÄTTNINGSMALL Anvisningar I var och en av de följande tjugo meningarna finns det ett brott mot olika slags skriftspråksnormer som gäller för

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Neurolingvistik - Grammatik

Neurolingvistik - Grammatik Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -

Läs mer

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål: Grammatikprov svenska Nu är det dags att kolla av vad eleverna lärt sig under vårens grammatik arbete. Efter påsklovet tar vi paus från veckans-ord och pluggar grammatik. För att det inte ska bli för mycket

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

4. Bedömning av delprov C

4. Bedömning av delprov C 4. Bedömning av delprov C Bedömningen av delprov C genomförs utifrån bedömningsmatriser, kommentarer till bedömningsmatriserna samt med hjälp av exempel på elevlösningar med analys. På grund av skillnader

Läs mer

Cristina Eriksson oktober 2001

Cristina Eriksson oktober 2001 Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner

Läs mer

Förhållandet mellan anföringssats och anförd sats vid direkt anföring *

Förhållandet mellan anföringssats och anförd sats vid direkt anföring * David Petersson Förhållandet mellan anföringssats och anförd sats vid direkt anföring * Sammandrag. Vid direkt anföring uppvisar såväl anföringssats som anförd sats huvudsatsegenskaper och det är inte

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Syntax Fras, sats, mening

Syntax Fras, sats, mening Allmän grammatik 6 Fraser Syntax Fras, sats, mening Lösryckta satsdelar utan kontext; benämns utifrån huvudordet. nominalfras (nomen, dvs. substantiviskt ord + bestämningar) min lilla bortskämda katt,

Läs mer

Sfi-läromedel ur ett processbarhetsperspektiv

Sfi-läromedel ur ett processbarhetsperspektiv Lunds universitet Kandidatuppsats Institutionen för nordiska språk Svenska som andraspråk Jonna Pleijel Vt 2013 Sfi-läromedel ur ett processbarhetsperspektiv Handledare: Gunlög Josefsson Innehållsförteckning

Läs mer

Satsled och satstruktur

Satsled och satstruktur Innehåll Satsled och satstruktur Språkvetenskaplig databehandling Maria Holmqvist 2011-03-14 Repetition: Ordklasser och fraser Satsled Satsledsanalys Syntaktiska kategorier vs. Syntaktiska relationer Satser

Läs mer

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser Språkets uppbyggnad Fraser och satsled Språkvetenskaplig databehandling Maria Holmqvist 2011-03-11 Ord som bildar Fraser som bildar Satser som bildar Meningar/yttranden som bildar Texter/dialoger/monologer

Läs mer

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför. Ordklasser SUBSTANTIV 1. Substantiv kan delas in i följande grupper: egennamn (Nilsson, Kalle, Märsta, SAAB) växter (gräs, träd, buske) personer (häxa, flicka, svensk) djur (lejon, hund, spindel) föremål,

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Satsdelar. Carina

Satsdelar. Carina Satsdelar 1 Huvudsats och bisats HUVUDSATS: Ger den viktiga informationen: verbhandlingen och vem som utför den. Kännetecken: Kan stå för sig själv. (Pojken kom inte till skolan idag). BISATS: Ger övrig

Läs mer

Bedömda elevexempel i årskurs 1 3

Bedömda elevexempel i årskurs 1 3 SKRIVA STEG 1 5 Bedömda elevexempel i årskurs 1 3 EN DEL AV BYGGA SVENSKA ETT BEDÖMNINGSSTÖD FÖR NYANLÄNDA ELEVERS SPRÅKUTVECKLING 1 1:1 1 Eleven som går i första klass har samtalat med sin lärare om en

Läs mer

Medieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor

Medieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor http://w3.msi.vxu.se/multimedia Medieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor Rune Körnefors Innehåll Variabler i JavaScript

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix. Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix. Tekniska förutsättningar För WordFinder från Mac App Store krävs följande: Processor: Intel Mac OS X 10.6.6 eller senare.

Läs mer

Instruktioner för att bygga Inrha Hobbyväxthus

Instruktioner för att bygga Inrha Hobbyväxthus 1 Instruktioner för att bygga Inrha Hobbyväxthus Inrha Hobbyväxthus är lätta att montera upp med endast ett litet antal verktyg. Dessa instruktioner gäller alla modeller, en del instruktioner gäller bara

Läs mer

ViTal. Talsyntes. Användarhandledning

ViTal. Talsyntes. Användarhandledning ViTal Talsyntes Användarhandledning Introduktion ViTal är ett program som utvecklats för att med hjälp av artificiellt tal vara ett stöd vid läsning och skrivning. ViTal kan användas både i undervisning

Läs mer

Ersätta text, specialtecken och formatering

Ersätta text, specialtecken och formatering 11 Ersätta text, specialtecken och formatering Möjligheten att söka igenom dokumentet och byta ut tecken, ord, textstycken, formatering, specialtecken (t.ex. sidbrytning) och annat är faktiskt mycket mer

Läs mer

Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen).

Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen). Satsschema Huvudsats Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen). Naturliga fundament är: kända pronomen, pronominella adverb (då, där, här), bekanta substantiv, tidsadverb

Läs mer

Gränssnitt för FakeGranska. Lars Mattsson

Gränssnitt för FakeGranska. Lars Mattsson Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken

Läs mer

Instruktion elektronikkrets till vindkraftverk

Instruktion elektronikkrets till vindkraftverk Instruktion elektronikkrets till vindkraftverk Färdig koppling D1 R2 IC1 R1 D2 R3 D3 R7 R5 T1 T2 R6 T3 R6 Uppgiften innehåller: Namn Värde Utseende Antal R1 11 kω brun, brun, svart, röd, brun 1 st R2 120

Läs mer

Persiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi

Persiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi Persiska Albin Finne 2002-10-10 Sammanfattning Den här uppsatsen beskriver det persiska språket. Språkets historia, morfologi, syntax och ordförråd behandlas. Tonvikten läggs på morfologi och syntax. Avslutningsvis

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Grammatik skillnader mellan svenska och engelska

Grammatik skillnader mellan svenska och engelska UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf December 2012 Grammatik skillnader mellan svenska och engelska 1 Inledning

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

Tenta i Lingvistik 729G08 ht10 ( )

Tenta i Lingvistik 729G08 ht10 ( ) Tenta i Lingvistik 729G08 ht10 (11-08-25) Skrivningen består av ett antal uppgifter (14) som ska lösas efter bästa förmåga. Uppgifterna bedöms enligt följande skala: 5p = mycket bra svar, 4p = bra svar,

Läs mer

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Maia Andréasson, Susanna Karlsson, Erik Magnusson och Sofia Tingsell Att de finita formerna av verbet ha, dvs. har och hade, kan utelämnas när

Läs mer

Hydraulstyrning för Utombordsmotorer GF300AT Installationsmanual

Hydraulstyrning för Utombordsmotorer GF300AT Installationsmanual Hydraulstyrning för Utombordsmotorer GF300AT Installationsmanual 1 Innehållsförteckning 1. Inledning...3 2. Montering av Hydraulcylinder...3 3. Montering av rattpump...5 4. Montering av slangar...6 5.

Läs mer

Automatisk detektering av partikelverb

Automatisk detektering av partikelverb Uppsala universitet Institutionen för lingvistik Oktober 2000 Examensarbete på språkteknologiprogrammet Automatisk detektering av partikelverb Bodil Mattisson Handledare: Åbylundsvägen 75 Lars Borin, inst.

Läs mer

TES Mobil. Användarmanual. Användarmanual TES Mobil Dok.nr. 32-019-03-02 v8

TES Mobil. Användarmanual. Användarmanual TES Mobil Dok.nr. 32-019-03-02 v8 1 TES Mobil Användarmanual 2 Innehållsförteckning 1 Introduktion... 3 1.1 Vad kan man göra med TES Mobil?... 3 1.2 Vad är en RFID-tag?... 3 1.3 Olika hantering på olika mobiltelefoner... 3 1.4 Rekommendationer

Läs mer

Loh Electronics AB, Box 22067, Örebro Besöksadress: Karlsdalsallén 53 Örebro Tel

Loh Electronics AB, Box 22067, Örebro Besöksadress: Karlsdalsallén 53 Örebro Tel Varvtalsregulator H-Version Beskrivning Varvtalsregulator version H är avsedd för A-traktorer där hastigheten begränsas enligt de regler som gäller för A-traktorer. Avsikten med denna modell är att kunna

Läs mer

Några skillnader mellan svenska och engelska

Några skillnader mellan svenska och engelska UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf December 2011 Några skillnader mellan svenska och engelska 1 Inledning

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Neutralt eller inte? Språkliga analyser av Finanspolitiska rådets sammanfattningar och pressmeddelanden

Neutralt eller inte? Språkliga analyser av Finanspolitiska rådets sammanfattningar och pressmeddelanden Rapport till Finanspolitiska rådet 2018/1 Neutralt eller inte? Språkliga analyser av Finanspolitiska rådets sammanfattningar och pressmeddelanden 2012 2017 Anna-Malin Karlsson Institutionen för nordiska

Läs mer

Vi var laddade och förberedda en undersökning om användningen av adjektiviska perfektparticip i tidningstexter i Hufvudstadsbladet

Vi var laddade och förberedda en undersökning om användningen av adjektiviska perfektparticip i tidningstexter i Hufvudstadsbladet Helsingfors universitet Humanistiska fakulteten Finska, finskugriska och nordiska institutionen Vi var laddade och förberedda en undersökning om användningen av adjektiviska perfektparticip i tidningstexter

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Aktivering av drivaxelfrånskiljande kraftuttag via BWS

Aktivering av drivaxelfrånskiljande kraftuttag via BWS Allmänt om funktionen Allmänt om funktionen Drivaxelfrånskiljande kraftuttag används framför allt när mycket stora effektuttag krävs. Fördelen är att drivaxlarna då är frånkopplade och all kraft kan användas

Läs mer

CADvent+ RÖR en första test

CADvent+ RÖR en första test CADvent+ RÖR en första test CADvent+ tar steget till att rita rör förutom ventilation. Jag har därför ägnat lite tid att titta på programmet för att se vad det går för. Den version jag testar är CADvent+

Läs mer

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 1 Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt

Läs mer

Använda Convertus Kursplaneöversättaren

Använda Convertus Kursplaneöversättaren Utbildningsavdelningen INSTRUKTION 2015-10-09 Använda Convertus Kursplaneöversättaren Programmet Kursplaneöversättaren är ett hjälpmedel för att översätta kursplaner från svenska till engelska. Du måste

Läs mer

Monteringsanvisning för dubbelkommando HV 2S Audi A3 Typ: 8V VW Golf VII Typ: AU

Monteringsanvisning för dubbelkommando HV 2S Audi A3 Typ: 8V VW Golf VII Typ: AU Veigel GmbH + Co. KG Monteringsanvisning för dubbelkommando HV 2S020412 Audi A3 Typ: 8V VW Golf VII Typ: AU 1. Skjut tillbaka framsäterna så långt det går. Ett tips: lossa säterna helt och luta dom bakåt

Läs mer

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid Stockholms universitet Institutionen för lingvistik Språkteori grammatik VT 1994 Robert Eklund MORFEMANAYS Vi kan dela in ord i mindre enheter, segmentera orden. Här följer en liten kortfattad beskrivning

Läs mer

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57 Studiehandledning vt 2018 Svenska språket 1, Delkurs Språkets byggstenar, grammatikdelen 5 hp Svenska språket Svenska språkets byggstenar, grammatikdelen 5 hp Välkommen till grammatikdelen i Svenska språket

Läs mer