Del II Revisionsprocessen och datorstödd språkgranskning en bakgrund The aim is to suggest an approach to the design of tools for writing which moves beyond the normal practice of adding extra facilities to current word processors a spelling checker here, an indexing facility there and focuses instead on the activities of writers. How do we write and how can the process of writing best be supported by a computer system? Sharples, Goodlet & Pemberton (1992, p. 22).
Kapitel 2 Datorstödd språkgranskning och språkkontroll Vilka möjligheter har datorn att kontrollera skrivet språk och därmed hjälpa skribenter att granska och bearbeta sina texter? Kapitel 2 ger en översiktlig beskrivning av området datorstödd språkgranskning och språkkontroll med avstamp i tidigare gjord forskning. 2.1 Datorn som verktyg för skrivande och språkgranskning Datorn är ett oerhört effektivt och flexibelt verktyg för den som behöver redigera text. Många med mig har upplevt den oerhörda lättnad det innebär att byta ut sin gamla skrivmaskin mot ett ordbehandlingsprogram och när som helst kunna göra ändringar i texten utan att för den skull behöva skriva om hela A4-sidor. För att inte tala om möjligheterna att kunna formge och presentera texten på ett tilltalande sätt och slutligen, till en liten kostnad, distribuera den via nätverk och publicera den på papper eller elektroniskt på webben. Detta har inneburit en demokratisering av skrivandet som resulterat i att många fler än tidigare producerar tryckt text både i arbetslivet och på fritiden utan professionell hjälp av vare sig sekreterare, redaktörer, typografer eller korrekturläsare. I grunden är detta en positiv utveckling som ökar det demokratiska inflytandet och säkert gör oss till bättre och mer kreativa skribenter över lag, men samtidigt innebär det att de traditionellt höga kraven på kvalitet i tryckta texter blir allt svårare att upprätthålla. Man kan inte förvänta sig att mer eller mindre ovana skribenter ska behärska alla de krav som traditionellt ställs på tryckta texter. Inte blir det bättre av att situationen i skolorna är pressad med uppenbara brister i tid och kompetens när det gäller att lära ut skrivande på dator som något annat än ren knapptryckarkonst. Samtidigt har situationen hårdnat för professionella skribenter på landets redaktioner som får det allt svårare att upprätthålla den höga språkliga standarden i sina produkter när kraven på aktualitet och effektivitet ökar i en allt större konkurrens med andra medier. De flesta redaktioner tvingas pressa tidsmarginalerna och skära ner i personalstyrkan vilket bl.a. går ut över korrekturläsningen. Inom skrivforskningen har ytterligare en faktor uppmärksammats som kan försvåra revisionsarbetet och påverka textkvaliteten negativt för den som skriver på dator i stället för med skrivmaskin eller med papper och penna: bristen på överblick (se avsn. 5.1 5.2). Den som läser vid datorn kan ofta inte se en hel A4-sida åt gången vilket kan skapa svårigheter vid planering och granskning av
Datorstödd språkgranskning och språkkontroll 11 text när ingen tillgång finns till pappersutskrifter. Det faktum att det går lätt att ändra vid datorn, förlorar en stor del av sin betydelse om det samtidigt blir svårt att granska; kan man inte se problemen, kan man heller inte göra något åt dem. Risken är att det resulterar i ett mer oorganiserat och ogenomarbetat skrivande med sämre texter som följd (se Severinson-Eklundh 1995). Mot denna bakgrund är det inte konstigt att många i dag tycker sig se fler slarvigt gjorda och dåligt korrekturlästa texter än tidigare. Det visar också att det finns ett behov av stöd och hjälp med språkgranskning vid elektroniskt skrivande både i praktiska och pedagogiska sammanhang Ett i sammanhanget intressant hjälpmedel är datorprogram som kan kontrollera språket i texter med avseende på stil och korrekthet. Rätt utformad och anpassad skulle en sådan språkkontroll, om än på ett begränsat sätt, både kunna effektivisera revisionsarbetet och förbättra resultatet genom att assistera skribenten i arbetet. Ett granskningsprogram med språkkontroll skulle kunna avlasta skribenter i deras arbete genom att hjälpa dem att mer effektivt upptäcka lokala och formella problem i sina texter; det skulle också kunna hjälpa ovana skribenter att uppmärksamma och hantera nya problem genom att bistå med vägledning (Kohut & Gorman 1995). Med rätt instruktivt stöd skulle det kanske också kunna uppmuntra till ett mer genomgripande revisionsarbete (Smye 1988), om inte annat så i ett pedagogiskt sammanhang där programmet skulle kunna avlasta och assistera läraren i dennes arbete med elevernas texter (Day 1988, Thomas & Thomas 1991). Det finns alltså skäl att titta närmare på vad ett program med språkkontroll kan granska, vilka metoder det använder i analysen av språket och hur det kan användas som ett interaktivt verktyg vid datorstött skrivande. Ytterligare ett skäl att undersöka tekniken bakom språkkontroll är att också andra tillämpningar som involverar automatisk analys av naturligt språk behöver teknik för att hantera avvikande språk eftersom avvikelser är en kännetecknande del av vår språkanvändning. Fokus i avhandlingen ligger dock på användningen av språkkontroll som interaktivt verktyg vid framställningen av naturliga texter vid praktiskt skrivande i yrkeslivet, vilket bl.a. undantar rena språkinlärningstillämpningar, s.k. CALL Computer Assisted Language Learning 2 (se Warschauer & Healey för en översikt), helautomatisk språkkontroll, och kontroll av s.k. kontrollerade språk där artificiella begränsningar lagts på språkets domän, vokabulär och syntax (se t.ex. Hoard m.fl. 1992, Bernth 1997, Ramírez Bustamente m.fl. 1999). En intressant fråga i sammanhanget är dock hur språkkontroll, liksom andra språkteknologiska tillämpningar, kan tänkas påverka språkförmågan och det svenska språket (se Josephson 1997a för flera artiklar som är 2 Termerna CALI (computer assisted language instruction) och ICALI (intelligent computer assisted language instruction) används också inom litteraturen (se t.ex. Bailin & Thomston 1988; Evans & Levin 1990).
12 Kapitel 2 relaterade till frågan, t.ex. Josephson 1997b, Domeij 1997, Karlgren 1997, Ahrenberg & Merkel 1997). 2.2 Stavningskontroll En språkkontroll omfattar granskning av flera typer av språkliga problem med hjälp av mer eller mindre avancerade metoder. Kontroll av stavning, tecken, ordval och fraseologi är inte lika svår att genomföra på ett någorlunda tillfredsställande sätt som kontroll av syntaktiska fel vilka kräver avancerade datorlingvistiska metoder (se t.ex. Dale 1988, Kukich 1992, Mitton 1996). Stavningskontroll kan göras med användning av en ordlista som orden i texten kontrolleras mot; finns ett ord inte i listan markeras det som ett möjligt stavfel. Stavningskontroll kan också göras statistiskt genom sökning efter osannolika bokstavskombinationer, men ordlistemetoden är vanligast. För morfologiskt okomplicerade språk, som t.ex. engelska, räcker det med att programmet innehåller en ordlista med alla språkets ordformer som de är. För svenskan, som morfologiskt sett är mer komplicerat, kan det vara värt att bara lista ordens grundformer och sedan med regler ange hur orden kan böjas, avledas och sammansättas. Utan morfologiska regler kommer stavningskontrollen att resultera i irriterande många falska alarm för vanliga sammansättningar och avledningar. Detta beror på att ett sådant program bara kan känna igen isolerade ord och inte produktiva sammansättningar och avledningar. Resultatet blir att sammansättningen jättetrött signaleras som en misstänkt felstavning medan särskrivningen jätte trött godkänns. I värsta fall kan det lura en osäker skribent att särskriva sammansättningar. Problemet visar på nödvändigheten att utveckla teknologi specifikt för det svenska språket, och inte bara överta engelskspråkig teknologi. En annan fördel med morfologiska regler är att antalet former i lexikon kan reduceras vilket gör att det inte krävs lika mycket minne. Minnesåtgången kan ytterligare reduceras genom effektiva lagringsmetoder i t.ex. hashtabeller (se avsn. 8.2). Ordlistan i ett program med stavningskontroll bör vara omfattande eftersom det minskar risken för att ett existerande ord inte finns med. Dock är det viktigt att inte lågfrekventa ord tillåts komma med, särskilt inte om de är korta. Då ökar nämligen risken dramatiskt att de ska råka sammanfalla med vanliga felstavningar och därför inte kunna detekteras. Om t.ex. ordet ten ( metallstång ) finns med i ordlistan, kommer stavfel av men, sen, den och andra vanliga ord som råkar resultera i ten inte att upptäckas. Problemet är vanligare än man kan tro. I en undersökning av cirka 4 000 stavfel i högstadieelevers texter befanns 40 % sammanfalla med korrekta ord (Mitton 1996). Enligt Kukich (1992) ligger frekvensen på ordsammanfall någonstans mellan 40 och 45 %. Anta att någon vill skriva Stoet följdes av sitt föl men råkar stava fel på föl. Stavfelet kan yttra sig på något av följande sätt:
Datorstödd språkgranskning och språkkontroll 13 1. ett icke-ord (Stoet följdes av sitt fol) 2. ett morfosyntaktiskt fel om det resulterar i ett ord med samma ordklass men med andra morfologiska egenskaper, t.ex. annat genus (Stoet följdes av sitt fön) 3. ett strukturellt fel om det resulterar i ett ord med annan ordklass, t.ex. ett verb (Stoet följdes av sitt föla) 4. ett semantiskt fel om det resulterar i ett ord med samma ordklass och med samma morfologiska egenskaper i kontexten (Stoet följdes av sitt fel) Ett program som enbart kontrollerar isolerade ord mot en ordlista kan bara detektera stavfel som resulterar i icke-ord; de andra tre kategorierna av fel undgår upptäckt. Exemplen visar tydligt att stavfelsproblematiken inte kan lösas på ett helt tillfredsställande sätt utan tillgång till kunskap om ordens språkliga kontext (se äv. Domeij 1994b). Detta gäller inte bara detektion, utan i ännu högre grad korrektion av fel. De flesta program för stavningskontroll försöker nämligen också korrigera upptäckta fel. Oftast görs detta genom att en lista med möjliga korrektionsförslag genereras. Det vanligaste sättet att ge förslag på ersättningsord är genom s.k. omvända editeringsoperationer. Metoden bygger på det faktum att över 80 % av alla stavfel skiljer sig från det avsedda ordet endast i en enda bokstav, som antingen försvunnit (bokstav > bostav), tillkommit (> bokkstav), förväxlats (> båkstav) eller bytt plats med bredvidstående bokstav (> bkostav) (Damerau 1964). Ett annat faktum som ofta tas hänsyn till enligt Mitton (1996) är att stavfelet sällan påverkar den första bokstaven i ordet. Korrektionsförslagen tas fram genom att man vänder på processen och genererar alla existerande ord som skiljer sig från stavfelet i en bokstav: boktav > oktav, bokstav. Långa ord är lättare att ge förslag på än korta, som kan generera många förslag: fol > fog, fon, for, fot, fox, fal, fel, fil, ful, föl, folk, foul, fiol. Metoden fungerar bra för tangentbordsfel, dvs. stavfel som uppkommit genom felaktiga tangentbordstryckningar, men sämre för fel som uppkommit på annat sätt och som behöver hanteras med andra tekniker, t.ex. fonetiska förväxlingar och kunskapsluckor. Se Kukich (1992) och Mitton (1996) för en översiktlig beskrivning av kompletterande metoder för att hantera fonetiska (se äv. Berkel & de Smedt 1988) och morfologiska kunskapsfel, t.ex. schargong i stället för jargong respektive ätade i stället för åt. Det finns några metoder för att rangordna och välja mellan olika korrektionsförslag, men långt ifrån alla system använder sig av dem. Ett sätt är att beräkna hur sannolikt det är att ett visst fel uppstår, t.ex. är det mer sannolikt att en tangent på tangentbordet förväxlas med en intilliggande tangent än med en som lig-
14 Kapitel 2 ger längre bort. Med den här metoden skulle fil rangordnas högre än fel som förslag till fol eftersom i ligger bredvid o på tangentbordet. Ett annat sätt är att använda en grammatikkontroll för att sortera bort eller lågranka vissa förslag som inte passar in i kontexten. T.ex. passar förslaget fil inte med sitt i kontexten Stoet följdes av sitt... p.g.a. inkongruens i genus. Därför kan förslaget troligen förkastas trots sin höga rankning på basis av sannolika tangenttryckningar. Om ett program bara innehåller stavningskontroll kan man räkna med att det enbart kontrollerar isolerade ord och därför inte tar hänsyn till kontexten vare sig vid detektion eller korrektion av ord. För att i någon mån kontrollera kontexten syntaktiskt behövs ett program som innehåller grammatikkontroll. 2.3 Teckenbaserad språkkontroll Det finns enkla språkkontrollprogram utan eller med ringa lingvistisk kunskap vars granskning endast består av en analys av texten betraktad som en rad grafiska tecken. En sådan teckenbaserad språkkontroll är i stort sett begränsad till att granska text med avseende på användningen av skrivtecken, ord och fasta fraser (se äv. avsn. 8.1). Eftersom mycket av det som kontrolleras berör stilistiska egenskaper brukar man hänvisa till dessa program som stilkontrollprogram (eng. style checker). Det svenska programmet Skribent textkontroll från Norstedts ordbok är av denna typ, liksom Plita som beskrivs i avsnitt 8.1. Granskningen går till så att en uppsättning granskningsregler genomsöker texten efter problematiska teckenföljder. Varje granskningsregel består av ett sökuttryck, en beskrivning av problemet och eventuellt också ett eller flera korrektionsförslag. Om sökuttrycket matchar ett problem en given teckenföljd i texten presenteras det för användaren tillsammans med problembeskrivningen och korrektionsförslaget. Mönstermatchningstekniken fungerar ungefär som sökfunktionen i ett vanligt ordbehandlingsprogram. Sökuttrycket kan innehålla stilistiskt markerade ordformer som det arkaiska hava eller fraseologiska problem som till skillnad mot. Det kan också innehålla beskrivningar av felaktigt använda skrivtecken, t.ex. genitivapostrof i svenskan (Eva s), vilket kan definieras formellt som ett apostroftecken föregånget av ett godtyckligt tecken och följt av tecknet s samt mellanslag eller interpunktionstecken (Domeij 1994a). Olika operatorer och generiska symboler för godtyckliga tecken ger sökuttrycken en uttryckskraft som gör att de kan beskriva mer generella fenomen. T.ex. kan vissa generella fraseologiskt-grammatiska mönster beskrivas, dock på ett starkt begränsat och samtidigt svårkontrollerbart sätt vilket riskerar att ge upphov till många falska alarm. Ett program med enbart teckenbaserad granskning skulle t.ex. kunna gissa sig till förekomsten av ett kongruensfel med hjälp av ordmönstret det -a -arna som matchar ogrammatiska fraser som det svarta korparna. Dessvärre skulle det också resultera i falska alarm som det ska varna.
Datorstödd språkgranskning och språkkontroll 15 Det klassiska amerikanska språkkontrollprogrammet Writer s Workbench använder heuristiska metoder för att på ett liknande sätt gissa sig till ords ordklasser på basis av ett minimalt lexikon (Cherry 1978, MacDonald m.fl.1980). Förutom att granska användningen av tecken, ord och fraser gör programmet, liksom många andra program av denna typ, även kvantitativa analyser av olika textegenskaper och presenterar resultatet för användaren, t.ex. medelvärden för ord- och meningslängd, andelen passivformer m.m. Likaså kan en texts läsbarhet beräknas på olika sätt huvudsakligen på basis av längden på ord och meningar. Även om teckenbaserad mönstermatchning är en effektiv och bra metod för att detektera olika teckenföljder, krävs lingvistiskt baserade metoder för att göra en tillräckligt generell och säker grammatikkontroll. Ett system kan visserligen göras mer lingvistiskt genom att det utrustas med ett lexikon där ordens ordklasser kan slås upp (se Hull m.fl. 1987). Detta räcker dock inte. Systemet kommer ändå att generera oacceptabelt många falska alarm p.g.a. morfologisk flertydighet, dvs. att ett ord kan ta flera möjliga ordklasser. Enligt Karlsson (1992) beräknas hela cirka 60 % av alla ord i svenskan vara morfologiskt flertydiga. För att få en uppfattning om problemets vidd kan man fundera över hur många ordklasser det vanliga ordet för kan ta. 3 Först när ett system baseras på effektiva metoder för att avgöra vilken av flera möjliga ordklasser ett ord tar i den aktuella meningskontexten kan man tala om lingvistiskt baserad språkkontroll i verklig bemärkelse. 2.4 Lingvistiskt baserad språkkontroll En lingvistiskt baserad språkkontroll gör en språklig analys av meningen som grund för granskningen. Det innebär att systemet i grunden har en automatisk språkanalyserare, en s.k. parser, som med hjälp av en beskrivning av språket kan tolka en text inte bara som en följd av grafiska tecken, utan som väsentligen bestående av lingvistiska objekt med morfologiska egenskaper och syntaktiska relationer till varandra. För själva granskningen behövs dessutom en mekanism som kan hantera ogrammatiskt språk och andra språkliga problem. Systemet ska också kunna generera ändringsförslag och/eller presentationer som beskriver detekterade problem och instruerar användaren i bearbetningen av dem. Grovt sett kan man tala om två olika typer av system beroende på hur djup och omfattande grundanalys systemet gör: grammatikbaserade och fenomenbaserade system. Ett fenomenbaserat system gör endast en partiell och ytsyntaktisk analys av varje sats. Den språkliga analysen görs vanligen genom att orden i texten först ordklassmärks genom uppslagning i lexikon (s.k. taggning). Morfologiskt flertydiga ord entydiggörs före och/eller under själva felkontrollen (s.k. disambiguering). Felen kan detekteras genom att en uppsättning gransknings- 3 Minst sex: substantiv, adjektiv, verb, adverb, preposition och subjunktion.
16 Kapitel 2 regler matchas mot ord och ordklasser i texten. 4 Granskningsreglerna beskriver lokalt 5 förekommande felaktigheter genom att ange otillåtna ordklasskombinationer, t.ex. två på varandra följande supinumformer som i *kunnat kommit. Felen kan förses med korrektionsförslag genom att en form med överensstämmande morfologiska egenskaper genereras från lexikon (i det här fallet infinitivformen komma). Ett fenomenbaserat system är både effektivt och robust nog att inte vara för långsamt eller överbelastas i praktisk användning, men dess lingvistiska funktionalitet anses traditionellt sett vara begränsad till granskning av grammatiska felaktigheter med strängt lokala beroenden, som i exemplet ovan där felet ligger i relationen mellan de morfologiska egenskaperna hos intilliggande lexikala enheter. Ett grammatikbaserat system, däremot, försöker ge varje sats en fullständig analys enligt beskrivningen i en formell grammatik. För att analysen inte bara ska avbrytas när satsen är ogrammatisk, ger systemet successivt efter på vissa grammatiska krav och kan på så vis systematiskt släppa igenom vissa förväntade grammatiska avvikelser som därmed kan detekteras på ett generellt och lingvistiskt motiverat sätt (s.k. relaxering). Grammatikbaserade system anses vanligen inte bara vara teoretiskt mer tilltalande; de anses också ha större potential att detektera grammatiska felaktigheter på ett generellt och kontrollerat sätt, i synnerhet mer komplexa sådana med icke-lokala beroenden, t.ex. inkongruens i predikativ (se t.ex. Oliva 1995). I praktiska sammanhang där kraven på robusthet och effektivitet är stora har dock grammatikbaserade system visat sig ha svårt att leva upp till denna potential. 2.5 Grammatikbaserad språkkontroll i praktiken Det amerikanska programmet Critique, 6 som utvecklades av IBM under åttiotalet och togs över av Microsoft på nittiotalet, är känt som det första praktiska systemet med kapacitet att göra en grammatikbaserad språkkontroll (Jensen m.fl. 1993, p. 78 ff). I dag används det i en vidareutvecklad form som språkkontrollverktyg för engelska i ordbehandlingsprogrammet MS Word och anses utvecklingsmässigt stå i frontlinjen för grammatikbaserad språkkontroll. Stora resurser har lagts ned på utvecklingen av systemet. Critique analyserar en text mening för mening enligt den syntaktiska beskrivningen i en utvidgad frasstrukturgrammatik (APSG Augmented Phrase Structure Grammar). För att hantera ogrammatiskt språk och detektera grammatiska fel görs analyser i olika omgångar. I ett första steg försöker sig programmet 4 Även helt statistiska metoder kan användas för att hitta osannolika övergångar mellan olika typer av konstituenter (Bigert & Knutsson 2002). 5 Termen lokal syftar i det här sammanhanget på näraliggande grammatiska samband som håller sig inom frasgränserna till skillnad från samband över frasgränserna. 6 Under utvecklingen användes arbetsnamnet Epistle som sedan ändrades till Critique.
Datorstödd språkgranskning och språkkontroll 17 på en approximativ analys av hela meningen. Att analysen är approximativ innebär att grammatiken i syfte att täcka ett stort antal möjliga konstruktioner är ovanligt accepterande, och att parsern använder heuristiska metoder för att effektivt ranka och välja mellan olika tolkningar. Misslyckas den första analysen gör programmet ett nytt försök där de strukturella kraven kvarstår men vissa morfosyntaktiska krav på korrekthet tagits bort, eller relaxerats som det kallas. Resultatet blir att vissa böjningsrelaterade fel godtas av den relaxerade grammatiken så länge ordningen mellan ordklasserna är grammatikenlig. Därmed kan systemet analysera och detektera olika former av numerusinkongruens (he are), vissa fel i verbkedjan (has expect) och kasusform hos pronomen (He gave it to I). När ett fel har detekterats och identifierats produceras ett felmeddelande som presenteras för användaren. Om också den relaxerade analysen skulle misslyckas p.g.a. att meningen är alltför ogrammatisk eller komplex, har systemet i ett tredje steg möjlighet att samla delanalyser av olika konstituenter under en huvudkonstituent (en s.k. fitted parse) så att delarna kan undersökas lokalt efter felaktigheter. Därmed kan morfosyntaktiska fel identifieras lokalt trots att meningen inte kan analyseras i sin helhet. Som ett sista steg undersöks resultatet från föregående analys med granskningsregler som huvudsakligen avser att detektera stilistiska problem men som också kan detektera en del andra grammatiska fel än rent morfosyntaktiska, t.ex. fel som yttrar sig strukturellt och som uppstått genom ordförväxling (who s i st. för whose). 7 Stilistiska problem som detekteras är t.ex. ord som anses överdrivet formella eller informella, samt konstruktioner som kan påverka begripligheten negativt, t.ex. alltför många framförställda attribut till ett substantiv. Eftersom också den stilistiska granskningen baseras på lingvistisk analys kan den göras mer precist och omfattande än i ett rent teckenbaserat system som saknar lingvistisk kunskap. Stilistisk granskning av enstaka ord och fasta fraser går lätt att göra genom att information om ordens stilvärde läggs till programmets generella lexikon. 2.6 Effektivitet och robusthet Det krävs stora resurser för att konstruera en så avancerad grammatikbaserad språkkontroll som den i Critique. Samtidigt har språkkontrollen i Critique, liksom i andra grammatikbaserade system, uppenbara begränsningar. Dessa bottnar i de kompromisser som måste göras för att få ett praktiskt välfungerande system med förmåga att utföra en omfattande syntaktisk analys av autentiskt språk utan tillgång till semantisk kunskap, något som ligger bortom horisonten för dagens språkteknologi. 7 Felet yttrar sig som ett strukturellt fel för programmets granskning.
18 Kapitel 2 Problemets ena sida är att om programmet innehåller en grammatik som är tillåtande nog att analysera alla de meningar som kan förekomma i autentiska texter får det enorma problem med att välja rätt analys bland alla möjliga analyser, i alla fall inom rimlig tid. Å andra sidan får ett program som innehåller en grammatik som är för snäv stora problem med att känna igen många fullt korrekta men svåranalyserade meningar för att inte tala om de ogrammatiska. I en test på drygt 2 200 meningar från en korpus bestående av mer än 400 affärsbrev kunde 70 % av alla meningar tilldelas en unik analys i Critique, och i ytterligare 16 % av fallen kunde antalet analyser skäras ner till ett litet antal (Jensen m.fl. sid.54). Det pris som måste betalas för att få den robusthet och de prestanda som krävs i praktiska tillämpningar med höga effektivitetskrav är en många gånger ofullständig analys med återkommande misstolkningar. Detta i sin tur yttrar sig i missade fel och falska alarm senare i granskningen som därmed blir begränsad och inte helt pålitlig (se avsn. 2.7). Användningen av relaxerade regler som metod att detektera grammatiska felaktigheter i kombination med en fullständig grammatisk analys, har även den sina begränsningar. Som beskrivits är relaxeringsmetoden mer eller mindre begränsad till detektion av böjningsrelaterade syntaktiska fel, t.ex. inkongruens. Att strukturella fel inte kan hanteras på samma generella sätt som morfosyntaktiska fel beror på de oöverstigliga problem det skulle innebära om man generellt släppte på de strukturella kraven för att ta hänsyn till alla teoretiskt möjliga felaktigheter som kan uppstå när ord eller konstituenter utelämnas, tillkommer, förväxlas eller flyttas. Att ta hänsyn till alla sådana felmöjligheter är en fullständigt övermäktig uppgift för en parser (se t.ex. Ingels 1996). Därför kan strukturella fel bara detekteras på ett mycket begränsat och godtyckligt sätt med särskilda granskningsregler för förväntade fall. Sådana begränsningar resulterar i att granskningen för grammatikbaserade system, liksom för fenomenbaserade system, blir ofullständig, fragmentarisk och inte alltid pålitlig. Skillnaderna mellan grammatikbaserade och fenomenbaserade system är därför i praktiken inte så stor som man kan tro. När hänsyn måste tas till begränsade utvecklingskostnader och höga krav på prestanda kan ett fenomenbaserat system med lokal, ytorienterad språklig analys vara väl så effektivt och ändamålsenligt som ett grammatikbaserat system vars omfattande och resurskrävande grundanalys inte alltid ger ett resultat som uppväger tidsåtgången (se t.ex. Bowden 1995, Bredenkamp m.fl. 2000). Fenomenbaserade system har också potentialen att kunna upphäva de lokala begränsningarna genom att fördjupa analysen när det är motiverat så att mer komplexa grammatiska problem ska kunna detekteras (se avsn. 8.3.1). På så sätt kan systemet undvika en resurskrävande språklig analys när den inte är nödvändig för granskningen.
Datorstödd språkgranskning och språkkontroll 19 Begränsningarna i olika typer av system understryker behovet av fortsatt forskning kring robusta metoder som både är mer effektiva och adekvata i analysen av ogrammatiskt språk och andra språkliga problem. Framtiden talar för hybridsystem, som inte bara blandar mönstermatchning med mer avancerad grammatisk analys utan också statistiska metoder med regelbaserade (se Ramírez Bustamente & Sánchez León 1996b, Oliva 1997, Sánchez León m.fl. 1999). För svenska finns två fenomenbaserade system; det kommersiella systemet Grammatifix (Birn 2000, Arppe 2000) och KTH:s experimentella program Granska (se avsn. 8.3). Båda har god funktionalitet och höga prestanda och kan liksom Critique hantera morfosyntaktiska felaktigheter som inkongruens samt felaktigt böjda verb och pronomen. De innehåller även viss granskning av strukturellt manifesterade problem, t.ex. felaktigt instoppat att efter hjälpverb (börjat att), liksom viss stilistisk granskning. Granska kan dessutom hantera särskrivna sammansättningar på ett icke-trivialt sätt (se avsn. 8.3.1). I anslutning till Granska-projektet har forskare vid Göteborgs universitet gjort intressanta försök att använda finita automater för att detektera inkongruens i substantivfraser enbart med hjälp av positiva regler, dvs. utan explicita felregler (se t.ex. Andersson m.fl.1999). Det finns också ett grammatikbaserat system för svenska, ScarCheck (Sågvall Hein 1998), som använder sig av en s.k. chart parser som grund för granskningen. Fördelen med en chart parser är att delresultat kan sparas och genomsökas efter ogrammatiskheter även när en fullständig analys misslyckas. Granskningen i ScarCheck omfattar ungefär samma feltyper som i Grammatifix och Granska (se avsn. 8.3.2 för en jämförelse mellan systemen). Feltypologin i projektet har utvecklats utifrån ett omfattande journalistiskt material där oredigerad och redigerad text jämförts med hjälp av semi-automatiska metoder (Wedbjer Rambell 1998). Utvecklingen av ScarCheck har gjorts inom EU-projektet Scarrie där språkkontroll för de nordiska språken danska, norska och svenska utvecklats (Povlsen m.fl. 1999). Tanken är att projektens tre prototyper ska vidareutvecklas till kommersiellt gångbara program för användning inom tidningsbranschen i de nordiska länderna. Till skillnad från ScarCheck bygger de danska och norska systemen (Paggio 2000a, 2000b; de Smedt & Rosén 1999a, 1999b; Rosén & de Smedt 1998, 1999) på det holländska grammatikbaserade systemet Corrie (Vosse 1992, 1994). Corrie, ScarCheck och de flesta andra grammatikbaserade system efter Critique använder s.k. unifiering för att hantera morfologiska särdrag och kontrollera att de stämmer överens mellan konstituenter, en teknik som visat sig väl lämpad att kombinera med relaxering av morfologiska särdrag (se äv. t.ex. Douglas & Dale 1992, Ramírez Bustamente & Sánchez León 1996a).
20 Kapitel 2 2.7 Täckning, precision och användbarhet I en intern och begränsad utvärdering av Critique kunde mellan 40 och 70 % av alla detekterade fel identifieras på ett korrekt sätt beroende på vilka typer av texter som kontrollerades (Jensen m.fl. sid.54). 8 Detta kan sägas ge ett mått på systemets precision (korrekt signalerade fel/alla felsignaler). Även om detta resultat var mycket positivt när undersökningen gjordes under senare hälften av åttiotalet, kan i dag många andra system även fenomenbaserade visa ett likvärdigt eller rent av bättre resultat (se nedan, samt äv. t.ex. Birn 2000; Knutsson 2001, 2002; Povlsen m.fl. 1999). Dock ska man vara försiktig med att tolka sådana siffror och göra jämförelser mellan olika system eftersom resultatet skiljer sig för olika typer av texter och lätt kan manipuleras. T.ex. är det vanskligt att som ovan tala om precision utan att nämna systemets täckning, dvs. hur många av alla eftersökta fel i texten systemet identifierar (signalerade fel/alla fel). I idealfallet ska en språkkontroll identifiera alla eftersökta fel i texten utan att ge några falska alarm. Eftersom inget system klarar det i praktiken måste en avvägning göras mellan antalet identifierade fel och antalet falska alarm. Det innebär att ett system som detekterar få fel med stor noggrannhet har låg täckning och hög precision, medan ett system som detekterar många fel med dålig noggrannhet har hög täckning och låg precision. Sammantagna kan måtten sägas spegla ett programs lingvistiska funktionalitet, men vilken avvägning mellan täckning och precision som är den optimala kan inte avgöras utan hänvisning till användbarheten sådan den uppfattas av användarna själva. 9 En erfaren skribent kan t.ex. tänkas acceptera en hel del falska alarm så länge förfarandet är effektivare än motsvarande manuella förfarande. En oerfaren skribent däremot som har svårt att avgöra vad som är ett falskt alarm kan ha en annan uppfattning om användbarheten. Kohut & Gorman (1995) undersökte funktionaliteten hos de fem mest använda grammatikkontrollprogrammen på marknaden. 10 De jämför resultatet av programmens kontroll med motsvarande mänsklig granskning av en samling icke korrekturlästa texter från affärsstuderande (eng. business students). De lät dessutom flera professionella skrivinstruktörer bedöma kvaliteten på program- 8 Den lägre siffran gällde för klassen professionella texter och den högre bl.a. för klassen universitetsstuderandes förstaårsuppsatser. När också ytterligare signalerade problem som ansågs användbara för skribenterna räknades varierade siffrorna mellan c:a 40 % och 85 %. Skillnaden mellan texttyperna kan förklaras av att kontrollen generellt sett fungerar bättre för okomplicerade meningar vilka var vanligare i uppsatserna. 9 Funktionalitet, effektivitet, robusthet och användbarhet ingår bland de sex kriterier som SIS föreslår för utvärdering av mjukvara. Underhållbarhet och portabilitet är de två andra. (ISO 1991). Se äv. rapporterna från EAGLES (1996) och TEMAA (1997) vilka diskuterar och ger riktlinjer för att utvärdera språkkontroll med olika testmaterial framför allt utifrån programmens lingvistiska funktionalitet 10 Den vidareutvecklade versionen av Critique som används i aktuella versioner av Word hade ännu inte nått marknaden och fanns därför inte med i denna utvärdering.
Datorstödd språkgranskning och språkkontroll 21 mens kommentarer vilket kan sägas ge något slags mått på kommentarernas användbarhet. Resultatet visade att det bästa programmet på ett korrekt sätt detekterade 47 % (50 % korrekthets- och 44 % stilproblem) av de problem som de mänskliga granskarna upptäckte. Ytterligare 12 % av problemen detekterades korrekt men identifierades inte på ett korrekt sätt. 16 % av de detektioner programmet gjorde var falska alarm, dvs. felaktiga detektioner av fullt acceptabla textegenskaper. Det innebär att programmets generella detektionskapacitet eller precision ligger på 84 %. Samma program fick också bäst resultat i bedömningen av kommentarernas användbarhet. I 63 % av fallen bedömdes programmets kommentarer som användbara, i 26 % av fallen som något användbara, och i 11 % av fallen som icke användbara. Programmets förmåga att generera ersättningsförslag bedömdes inte för sig. Kohut och Gorman menar att resultatet som helhet är uppmuntrande och pekar på att de bästa språkkontrollprogrammen, trots uppenbara begränsningar i teknologin, ändå har en förvånande hög potential att komplettera läraren vid enklare granskning och kommentering av studenters texter. En jämförelse av resultatet från texter på olika betygsnivåer antyder också att språkkontrollen kan vara användbar både för svaga och starka skribenter, men på olika sätt; medan starka skribenter kan ha nytta av språkkontrollen som slutlig korrekturläsningshjälp, kan svaga skribenter uppmuntras av den i ett tidigare skede av skrivprocessen. Kohut och Gormans studie undersöker programmens kapacitet att detektera olika typer av problem, men till skillnad från många andra utvärderingar av den här typen använder den inte enbart konstruerade exempel som testmaterial utan målgruppsrelaterade, autentiska texter. Den drar heller inga generella slutsatser utifrån en utvärdering av ett enda program, utan jämför funktionaliteten mellan olika program på samma testmaterial. Kohut och Gorman kompletterar dessutom utvärderingen av programmens kapacitet att detektera problem med att mäta användbarheten i problempresentationerna genom att låta professionella uppsatsgranskare bedöma den. Så tillvida innebär Kohut och Gormans studie ett steg framåt jämfört med många tidigare utvärderingar som helt utelämnat frågan om hur värdefull ett programs granskning är för användaren. En svaghet med undersökningen är dock att den mäter användbarheten på ett begränsat och möjligen missvisande sätt eftersom bedömarnas uppfattning inte behöver ge en riktig bild av användbarheten sådan den uppfattas av slutanvändarna själva när de använder programmet. En studie av Thomas & Thomas (1991) visar att det kan finnas påtagliga olikheter i lärares och studenters uppfattning av användbarheten hos ett programs kommentarer (medan lärarna uppfattade 2/3 av kommentarerna som användbara, gjorde bara drygt hälften av stu-
22 Kapitel 2 denterna det; de tyckte dessutom oftare att kommentarerna var förvirrande). Metoden visar inte heller vilka effekter användningen av språkkontroll kan få på språk och skrivande. 2.8 Oklara effekter och behov av användarstudier Befintliga språkgranskningsprogram har fått utstå en hel del kritik och mycket av den är berättigad. Det är viktigt att inse att program av den här typen inte på långa vägar kan ersätta mänsklig granskning, i bästa fall komplettera den (för en diskussion om programmens begränsningar och möjligheter se Domeij, 1997 och Knutsson, 2001). Programmen gör bara en granskning av ytliga fel i texten; de kan inte analysera problem som har med komplicerad grammatik, innehåll och struktur att göra. Granskningen är också fragmentarisk på så sätt att bara vissa fel, inte alla, inom en kategori kan hittas. Så är det t.ex. med kongruensfel där en del fel undgår upptäckt. Programmen gör dessutom ibland fel så tillvida att de kan presentera något som fel fast det inte är det, så kallat falskt alarm. Programmens presentationer med problembeskrivningar och bearbetningsinstruktioner är inte heller alltid lättbegripliga eller tillräckligt utförliga. Dessutom finns mycket annat i systemets gränssnitt som påverkar interaktionen mellan skribent och språkkontrollprogram med påföljande effekter på skrivandet och språkförmågan. Med tanke på den enorma spridning som olika språkkontrollerande verktyg har i dag genom att de ingår i ordbehandlarnas standardutrustning är det anmärkningsvärt att forskningen inte visat ett större intresse för frågan om deras användbarhet och effekter. Den begränsade forskning som gjorts har inte skapat någon större klarhet i frågan (se äv. avsn. 5.3). Trots problemen finns ändå en hel del i programmen som kan göra dem användbara, men det är fortfarande oklart vilka effekterna blir på språk och språkförmåga. Därför är det av stor vikt att saken undersöks närmare med studier som sätter användaren i centrum och fokuserar på hur interaktionen mellan användare och program fungerar, vilka effekterna blir och hur man kan utveckla program som är bättre anpassade till svenska skribenters behov. En seriös utforskning av användbarheten bör involvera skribenten själv och baseras på vedertagna teorier och metoder inom skrivforskning och människa-datorinteraktion. Användbarheten bör studeras utifrån skribentens synvinkel i själva skrivsituationen, och inte bara som en bedömning av kvaliteten på ett programs kommentarer. På så sätt går det att få en klarare bild av vad som egentligen pågår i interaktionen mellan skribenten och dennes verktyg. Som en bakgrund till språkkontrollens användarproblematik ska jag i följande kapitel närmare redogöra för befintlig forskning om skrivande och människa-datorinteraktion (MDI) innan jag i del III beskriver de språkkontrollverktyg
Datorstödd språkgranskning och språkkontroll 23 som jag varit delaktig i att utveckla, och de användarstudier som jag gjort i anslutning till denna utveckling.
Kapitel 3 Olika perspektiv på skrivande och MDI Grovt sett kan man säga att den internationella skrivforskningen har dominerats av tre olika forskningsperspektiv under de senaste trettio åren. Låt oss kalla dem det textorienterade, det kognitionspsykologiska och det etnografiska perspektivet. Förespråkarna för de olika perspektiven har haft olika sätt att se på skrivande 11 och de metoder med vilka man bäst studerar det (se äv. Björk & Blomstrand 1994). 3.1 Det textorienterade perspektivet I det textorienterade perspektivet som var rådande fram till slutet av sjuttiotalet studerade man framför allt resultatet av skrivandet: den färdiga texten. Dessa forskare ägnade sig huvudsakligen åt att analysera skrivprodukten med avseende på olika egenskaper, som t.ex. texters längd och kvalitet. I den mån skrivandet sågs som process var det efter en stegvis modell som baserades på skribenters beteende och delprodukter betraktade ur ett behavioristiskt perspektiv (se t.ex. Wallace 1996). Skrivandet sades bestå av tre faser: förarbete, skrivarbete och efterarbete. Under förarbetet produceras vanligtvis en skrivplan eller disposition. Planen ligger sedan till grund för det egentliga skrivarbetet där ett utkast produceras. Utkastet bearbetas i sin tur under efterarbetet till en färdig text. Flera skrivforskare från denna period tyckte sig se ett samband mellan mängden revisionsarbete och den färdiga textens kvalitet; ju mer omfattande revideringar som gjordes i utkastet, desto bättre text (se t.ex. Beach 1976). Den pedagogiska implikationen tycktes klar: om skrivundervisningen kan stimulera eleverna att revidera mer, kommer de också att prestera bättre. Sambandet mellan revisionsarbetets omfattning och textens kvalitet gav också pedagogisk legitimitet åt användningen av datorer inom skrivundervisningen. Eftersom det är så mycket lättare att ändra i ordbehandlaren än med papper och penna, resonerade man, skulle den på ett nästan omärkligt vis bidra till ökad revision och bättre texter. Dock skulle det med framväxten av det nya kognitionspsykologiska perspektivet på skrivande visa sig att fler ändringar inte med nödvändighet behöver resultera i bättre texter. 11 Det som avses med termen skrivande i sammanhanget är författandet av s.k. brukstexter och inte poesi, drama och skönlitteratur.
Olika perspektiv på skrivande och MDI 25 I övrigt användes gärna språkinlärningsprogram med övningar där eleverna kunde öva på isolerade färdigheter inom t.ex. stavning, grammatik och ordkunskap. 3.2 Det kognitionspsykologiska perspektivet Under tidigt åttiotal växte ett annat forskningsperspektiv fram och blev dominerande inom skrivforskningen: det kognitionspsykologiska perspektivet. De kognitionspsykologiskt inriktade skrivforskarna strävade efter att se bakom det yttre skrivbeteendet och dess produkter genom att spåra de tankeprocesser som ligger till grund för skrivandet (se t.ex. Flower & Hayes 1981, Bereiter & Scardemalia 1987, Kintsch 1987). De ville flytta skrivforskningens fokus från produkt till process, med fokus på inre, kognitiva skrivprocesser. Emig (1971) var tidigt ute och förebådade det nya forskningsperspektivet. I Sverige uppvisar Larsson (1984) och Strömquist (1989) en språksyn med rötter i detta perspektiv. Den kognitionspsykologiska skolan har sina rötter i informationssystemteori och Herbert Simons och hans kollegors uppmärksammade forskning om problemlösning och dess bakomliggande kognitiva processer (Newell & Simon 1972). Människan ansågs i analogi med datorn kunna betraktas som ett symbolmanipulerande system med formellt beskrivbara inre processer och kunskapsrepresentationer. Denna syn kom att starkt påverka den psykologiska forskningen (Andersson 1980). Skrivforskarna Flower & Hayes blev skolbildande när de applicerade den kognitionspsykologiska skolans teori och metodik inom skrivforskningen (Hayes & Flower 1980). De menade att skribenten skulle betraktas som ett informationsbearbetande system med generella kognitiva processer som grund för skrivförmågan. Dessa skrivprocesser kan spåras med s.k. tänka högt-metodik där försökspersoner högt får uttala sina tankar medan de skriver under experimentella former (Ericsson & Simon 1984, Hayes & Flower 1983). Skrivandet ses huvudsakligen som en komplex och målinriktad problemlösningsprocess som kan brytas ner i tre huvudsakliga delprocesser: planering, formulering och revision (Flower & Hayes 1981). Delprocesserna griper in i varandra under skrivandets alla stadier. Den skrivande är sålunda involverad i en mycket krävande uppgift där hon hela tiden planerar, prövar formuleringar och ändrar under skrivandets gång. Även skrivplanen är ofta föremål för revidering. Skrivandets komplexitet gör det viktigt för skribenten att hitta strategier för att organisera skrivandet på ett sätt som minskar den kognitiva belastningen på arbetsminnet (Flower & Hayes 1980). I annat fall kan skribenten trassla in sig alltför mycket i olika problem och drabbas av kognitiv överbelastning. Ett sätt att minska belastningen är att planera noggrant i förväg och sedan släppa på kraven under skrivandet genom att vänta med korrekturändringar och typografisk
26 Kapitel 3 formgivning till efterarbetet och i stället koncentrera sig på textens övergripande struktur och mål. I polemik mot det textorienterade forskningsperspektivet poängteras att det inte är antalet ändringar i en text som är avgörande för kvaliteten på resultatet. I stället är det den bakomliggande förmågan att bearbeta text som avgör (Hayes m.fl. 1987). Har man inte förmåga att bedöma vari textens problem består, kan den till och med bli sämre med ytterligare bearbetningar (Bracewell, Scardemalia & Bereiter 1978). Därför borde skrivundervisningen inrikta sig på att förbättra den kognitiva förmåga som ligger till grund för skrivandet och lära eleverna använda verkningsfulla strategier för att organisera och bearbeta sina texter. De datorstöd för skrivande som konstrueras under inflytande av den kognitionspsykologiska skolan har som mål att underlätta för skrivandets kognitiva processer. Ett sätt att åstadkomma detta är att ge utrymme för hela skrivprocessen i ordbehandlaren genom att på olika sätt stödja de olika delprocesserna, inklusive planering (se t.ex. Smith & Lansman 1989). Ett annat sätt att ge stöd för skrivprocesserna är att avlasta skribenten i dennes arbete genom att låta konstruera intelligenta datorsystem som automatiserar delar av processerna, t.ex. genom att låta en grammatikkontroll hitta och korrigera språkliga problem under skribentens överinseende. 3.3 Det etnografiska perspektivet I slutet av åttiotalet började den kognitionspsykologiska skolbildningens dominans inom skrivforskningen och MDI-området allt mer att ifrågasättas (se t.ex. Cognitive Science 1993 där bl.a. Herbert Simon och Lucy Suchman diskuterar frågan). Kritiken kom framför allt från socialt inriktade skrivforskare som menade att det kognitiva perspektivet var alltför snävt fokuserat på enskilda individers prestationer som de framstod i laboratorieexperiment. Dessa forskare framhöll i stället att skrivande väsentligen är en social verksamhet som bör studeras med etnografiska metoder (se t.ex. Cooper & Holzman 1989a). När det etnografiska perspektivet slog igenom på bred front i början av nittiotalet fick många faktorer i skrivsituationen som varit mer eller mindre marginaliserade under den kognitionspsykologiska eran ett centralt intresse för skrivforskningen, t.ex. samarbete, skrivverktyg och arbetsplatsrutiner (se t.ex. Sharples & van der Geest 1996, Gunnarsson 1992). I kontrast till de kognitionsinriktade forskarnas fokus på interna representationer ägnades ett större intresse åt olika sorters externa representationer, som t.ex. anteckningar (se t.ex. Sharples 1992). Experimentella studier av skrivande kritiserades för att inte vara ekologiskt valida, dvs. p.g.a. deras artificiellt skapade omständigheter kan de inte generaliseras till att gälla skrivande i verkliga situationer (Cooper 1989). I stället ska
Olika perspektiv på skrivande och MDI 27 skrivande studeras i sin naturliga miljö med etnografiska metoder. Eftersom den etnografiskt inriktade forskaren utgår från att all kunskap inte är artikulerbar kan hon inte helt förlita sig till verbala data utan måste komplettera dem med direkta observationer i naturliga miljöer (se t.ex. Chin 1994). Framväxten av det etnografiska perspektivet inom MDI har framförallt tre orsaker (Blomberg, 1995, sid. 175 176). Det första skälet är en växande insikt om begränsningarna i det individcentrerade perspektivet inom kognitiv psykologi och de experimentella metoder som används där. Det andra skälet är att kognitionsvetenskapens kognitiva modeller inte har visat sig räcka till för att bygga avancerade, intelligenta datorsystem, vilket också riskerar att resultera i opålitliga praktiska system (se t.ex. intervjun med H. Dreyfus i Baumgartner & Payr 1995, se äv. Weizenbaum 1985, Winograd & Flores 1986). Det tredje skälet slutligen var ett växande intresse för datornätens nya möjligheter till datorstött samarbete. Inom MDI används därför nu i större utsträckning etnografiska metoder för att nå ökad förståelse för olika arbetsrutiner i ett socialt sammanhang. Man vill också studera och utvärdera användningen av datorsystem i praktiken för att på så vis kunna designa bättre praktiskt anpassade datorsystem som inte bara stödjer kognitiva processer utan framför allt behovet av samarbete både vad gäller skrivande (Baecker m.fl. 1993, Sharples m.fl. 1993, Sharples 1996) och andra aktiviteter, som t.ex. inlärning. Inte minst i språkgranskningsarbetet finns behov av datormiljöer med stöd för samarbete och möjlighet för flera inblandade skribenter att ändra och kommentera samma dokument (Neuwirth m.fl. 1990). I det nya perspektivet visar sig också ett nyvaknat intresse för design och kreativitet (Winograd 1996, Sharples 1999). Avhandlingen utgår dock från ett i huvudsak kognitionspsykologiskt perspektiv på revision och en kognitiv modell av revisionsprocessen (Hayes m.fl. 1987) som används för att, med hjälp av tänka högt-metodik, studera skribenter involverade i datorstödd språkgranskning. Fördelar och brister i modellen och metodiken diskuteras sedan i ljuset av framkomna resultat och deras implikationer för praktisk systemkonstruktion, skrivpedagogik och vidhängande teoribildning och metodik.
Kapitel 4 Forskning om revision I det här avsnittet beskrivs vad revision är mot bakgrund av tidigare forskningsresultat. Det leder fram till en presentation av den kognitiva modell av revisionsprocessen som till stora delar ligger till grund för avhandlingen. 4.1 Två olika typer av revision Som redan påtalats kan skrivande å ena sidan beskrivas som en yttre aktivitet bestående av olika stadier: förarbete, skrivarbete och efterarbete. Å andra sidan kan skrivande ses som kognitiva processer i skribentens huvud, processer som ständigt försiggår under alla stadierna. Även om en skribent huvudsakligen ägnar sig åt att planera under förarbetet, att skapa text under skrivarbetet och att revidera under efterarbetet, griper de olika processerna också i varandra under skrivandets alla faser i och med att formuleringar kontinuerligt granskas, omplaneras och omarbetas. Man kan alltså tala om minst två typer av revision: processrevision, som sker under hela skrivarbetet, och slutrevision, som görs i slutfasen av skrivandet. Detta sagt utan att utesluta att revision också kan ses som en social verksamhet som involverar flera aktörer och även mer eller mindre intelligenta skrivverktyg. Sett som process avbryter revisionen ofta andra processer (planering och textskapande) genom sin kritiskt reflekterande och rekonstruerande funktion. Upptäcks ett problem under skrivandets gång är det svårt att inte avbryta sig och övergå till att försöka åtgärda det. Men även om man skulle vilja, går det inte att kräva att varje mening ska vara exakt rätt formulerad innan man går vidare till nästa. Det kan tillskrivas korttidsminnets begränsningar i kombination med arbetsuppgiftens komplexitet och alla de krav som ställs på den färdiga texten. En bra strategi kan därför vara att tillfälligt nöja sig med ofullkomliga formuleringar i utkastet och vänta med att bättra på dem till efterarbetet. Emellertid är det svårt att generellt sett säga vilken strategi som är den bästa eftersom skribenter kan skilja sig väsentligt i hur mycket tid de ägnar åt slutrevision men ändå producera samma goda resultat. Skribenter som planerar noga innan de börjar skriva verkar t.ex. inte behöva ägna sig åt lika omfattande slutrevision som de som i förväg inte har en lika klar plan över vad de ska skriva. En annan typ av skribent verkar klara sig bra med att göra många uppehåll för revideringar under själva skrivarbetet. (Se Sharples 1999, sid. 112 ff; van Waes 1992).