Språkgranskningsverktyg, vt 2009

Relevanta dokument
Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Maskinöversättning. F Anna Sågvall Hein

Grundläggande textanalys, VT2013

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Lingvistik I Delmoment: Datorlingvistik

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Textstil/tonalitet med Acrolinx

Lingvistik I Delmoment: Datorlingvistik

Grundläggande textanalys. Joakim Nivre

Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG

Kursplaneöversättaren. Lina Stadell

Lingvistik I Delmoment: Datorlingvistik

Svårigheter med kurslitteraturen

Introduktion till språkteknologi. Datorstöd för språkgranskning

MÖSG ht 2005 Maskinöversättningssystemet MATS

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

språkgranskning, ht 2007

Isolda Purchase - EDI

Machine Translation MÖSG F Anna Sågvall Hein

Språkteknologi och Open Source

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Syfte med undervisningen Genom undervisningen i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

Convertus - kursplaneöversättning

Skriftspråk i förändring möter förlegade skrivstöd

Beijer Electronics AB 2000, MA00336A,

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

Språkgranskningsverktyg. F1: Introduktion

Omtenta Svenska - ett andraspråk S S2GA01/04. ht 2014/vt 2015 fredag den 13 mars Inga hjälpmedel! VG G U 0-84

Ready for Academic Vocabulary?

DATORSTÖDD SPRÅKGRANSKNING OCH

Kursbeskrivning med litteraturlista HT-13

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Djupstruktur och ytstruktur

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Mycket formellt, mottagaren har en speciell titel som ska användas i stället för namnet

Svenskans struktur, 7,5 hp Tentamensexempel 1

Assistans med språklig kvalitet Stöd eller irritationsmoment?

Maskinöversättning och språkgranskning, ht 2006

Obesvarade frågor från F4

språkgranskning, ht 2007

Lektion 3. Anteckningar

grammatik Ordklasser, nominalfraser, substantiv

Workplan Food. Spring term 2016 Year 7. Name:

Authentication Context QC Statement. Stefan Santesson, 3xA Security AB

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

Grammatik för språkteknologer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Mycket formellt, mottagaren har en speciell titel som ska användas i stället för namnet

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Grammatik skillnader mellan svenska och engelska

Grammatik, det fixar väl datorn?

Grammatik för språkteknologer

Quick Start Guide Snabbguide

Några skillnader mellan svenska och engelska

Särskild avgift enligt lagen (2012:735) med kompletterande bestämmelser till EU:s blankningsförordning

Komma igång med Adobe Presenter ver.7

Målet är att ge maskiner förmågan att plocka ut information ur

Maskinöversättning möjligheter och gränser

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Bankernas kontonummer Bank Account Numbers in Swedish Banks

Grammatik för språkteknologer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Fodina Language Technology White Paper Ordnad språkhantering

Calculate check digits according to the modulus-11 method

Småprat Small talk (stressed vowels are underlined)

Använda Convertus Kursplaneöversättaren

Quick-guide to Min ansökan

Stava Rex. för Google Docs. Manual för Stava Rex för Google Docs

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Introduktion till Entity Framework och LINQ. Källa och läs mer

Adress 15. August 2014

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

2.1 Installation of driver using Internet Installation of driver from disk... 3

Några skillnader mellan svenska och engelska

Grammatisk teori II Attributvärdesgrammatik

SpellRight. för Google Docs. Manual för SpellRight för Google Docs

Lathund för SpellRight

Statistik från webbplatser

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

U = Underkänd Studenten uppnår inte kunskapsnivån för de förväntade studieresultaten.

Designmönster för sociala användningssituationer

1. Unpack content of zip-file to temporary folder and double click Setup

Språkgranskningsverktyg, vt 2008

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Ikoner för att illustrera de relevanta informationskategorierna Driftskompatibilitet. Näringsidkarens namn. Internetanslutning

Bankernas kontonummer Bank Account Numbers in Swedish Banks

ENGA21: Engelska fortsättningskurs, 30 högskolepoäng Studiebeskrivning

Svenskans struktur, 7,5 hp Tentamensexempel 3

Transkript:

, vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1

Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2

Kontrollerat språk Delmängd av naturligt språk Restriktioner på vokabulär, grammatik och stil Man vill uppnå: enhetlig layout, terminologi och stavning ökad läsbarhet tydlighet (undvik tvetydighet, ex close) grammatisk och terminologisk korrekthet full täckning på vokabulär, terminologi och grammatik maskinöversättningsbar text 3

Restriktioner i Simplified English Undvik passiv form Använd artikel i nominalfraser i så stor utsträckning som möjligt Använd enkla tempusformer Var konsekvent i språkbruk och meningsuppbyggnad Undvik flerledade sammansättningar Använd korta meningar 4

Exempel på kontrollerade språk AECMA Simplified English luftfartsindustrin t ex Boeing Simplified English (1990) Caterpillar Technical English (CTE) KANT-systemet IBM EasyEnglish Scania Swedish 5

IBM EasyEnglish Different system users may operate on different objects using the same application program. 6

IBM EasyEnglish Different system users may operate on different objects using the same application program. Ambigous attachment of verb phrase: using the same application program. Who/what is using the same application program, Different system users or different objects? If Different system users, a possible rephrasing would be: by using the same application program ; If different objects, a possible rephrasing would be: different objects that use the same application program. 7

IBM EasyEnglish It is the number defined in the file or result field definition. 8

IBM EasyEnglish It is the number defined in the file or result field definition. Ambiguity in: "the file or result field definition". Possible rephrasings: "the result field definition or the file" or "the file definition or the result field definition" or "the file field definition or the result field definition" or "the definition of the file or of the result field" or "the field definition of the file or of the result" 9

IBM EasyEnglish (prototyp) Guilt, vengeance, and bitterness can be emotionally destructive to you and your children. You must get rid of them. 10

IBM EasyEnglish (prototyp) Guilt, vengeance, and bitterness can be emotionally destructive to you and your children. You must get rid of them. Ambiguous pronoun reference: them. 11

Hur upplevs kontrollerat språk? Finns ett motstånd från användarna: Krångligt och tidsödande att lära sig Känner sig inte fria att skriva som de vill Måste lära sig själva det kontrollerade språket Måste lära sig den programvara som används för att se till att det kontrollerade språket följs Den tid man spar på maskinöversättning äts upp av den tid det tar för skribenten att anpassa sitt skrivande till det kontrollerade språket 12

Uppnås målet? Undersökningar har visat att kontrollerat språk: ger högre kvalitet på texten ökar läsbarheten ger bättre översättningar (manuella såväl som maskinella) 13

Komponenter i en checker Ordkontroll rätt terminologi rätt stavningsvariant (color/colour) akronymer (IKEA/Ikea) Grammatikkontroll Stilkontroll ord- och meningslängd datumformat Ersättningsförslag 14

Scania Checker Mål: Minska översättningskostnaden Minska antalet termvarianter (öka läsbarheten) Korrekt grammatik 15

Bakgrund 1995: samarbete med Institutionen för lingvistik, UU projektkorpus, ca 7000 sidor 1996: korpus konverterad till TEI SGML definition av Scania-svenska 1997: prototyp av Scania Checker klar 1998: ny korpus (> 6000 filer) 16

Bakgrund (forts) 1999: UCP-analys klar administrationsverktyg klara 2000: driftsättning 2007- : samarbete med Convertus AB vidareutveckling av Checkern anpassning till maskinöversättning 17

Moduler Tokenisering och meningssegmentering (Perl) Lexikal databas (SQL) med webbgränssnitt för lexikonsökning och uppdatering: godkända ord minusord reguljära uttryck för alfanumeriska uttryck Grammatikkontroll med UCP3 Färguppmärkning 18

Principer för synonymval Om något av orden ingår i TermLex, så välj det Välj det ord som ligger närmast allmänspråket Välj det ord som har högst frekvens i servicelitteraturen Välj det mest översättningsvänliga ordet 19

Reguljära uttryck för hantering av alfanumeriska uttryck [0-9]+:e [0-9]*1:a [A-Z]+[0-9]+ [0-9]+\s\% [0-9][\*xX][0-9] DTOSB DTOSB XXX XXX XXX 20

Färguppmärkning Gulmarkering okända ord (saknas i lexikonet) Rödmarkering minusord med ersättningsförslag Lilamarkering stavfel 21

Färguppmärkning (forts) Blåmarkering ord som bör användas med försiktighet ex. turbo turboladdare/turboteknik dock bilen är utrustad med turbo Grönmarkering grammatikfel ordfel som inte kan hanteras av ordkontrollen 22

Exempel på grammatikfel som Scania Checker hanterar (1) Fel numerus på adjektivet i predikatsfyllnaden Fjäderbromscylindrarna är kombinerad med membrandel för färdbromsdelen Fel form på substantivet Detta läget används när man vill förvärma bränslefiltret alla områden med en belastningen större än 1 Fel form av pronominet efter preposition När de programmerade resistanserna läses ut från fordonet kan det hända att de som visas inte överensstämmer med de som programmerats 23

Exempel på grammatikfel som Scania Checker hanterar (2) Särskrivna sammansättningar D43 hindrar att utrustning ansluten till C89 kopplas bort vid fel på ABS systemet Varvtals avvikelsen är större än 10 % Fel verbform CTT måste var ansluten till fordonet när du direktstartar värmaren 24

Exempel på grammatikfel som Scania Checker hanterar (3) Överflödigt infinitivmärke Gör alltid fordonet strömlöst innan du börjar att arbeta med en krockkudde eller en bältessträckare Infinitivmärke saknas Detta för skydda systemet mot överhettning Om Du väljer Inaktiv så kommer man bara kunna ställa in tomgångsvarvtalet med hjälp av farthållarreglaget Byt ut klamma mot klämma Sätt fast elkablarna 13 och 14 med en klamma 25

Falska alarm i Scania Checker Arbetar mening för mening Partiell analys av meningen Om ord saknas i lexikonet, så kan det påverka analysen av omkringliggande ord Felaktig meningssegmentering Påfyllningsslang med anslutningar, 98 243 Slangen är försedd med överfallsmutter i ena änden och gängad anslutning för lokal anpassning i den andra 26

Scania Checker idag Ca 60 användare Används och uppskattas av de tekniska skribenterna Språkutvecklare läser av användarlogg och lägger in nya ord i lexikonet Planer på integrering med maskinöversättning (Convertus-systemet) Samma analysformalism (UCP3) och lexikonuppbyggnad i båda systemen 27

Exempel på beställda uppdateringar av Checkern, 2008 Bättre förklaringar av grammatikfel Kontrollera att ersättningsordet finns med i lexikonet Felmarkera perifrastisk komparation om ordet går att böja morfologiskt Ta hänsyn till ordklass för minusord Spåra användningsfrekvens för ord 28

Dags att dema... http://convertus.se:84/checker.cgi 29