Om svar anhålles Rapport från projeket OSA

Transkript

1 GU-ISS-96-4 Research Reports from the Department of Swedish, Göteborg University ISSN Om svar anhålles Rapport från projeket OSA (Augusti 1996) Sture Allén Yvonne Cederholm Sofie Johansson Kokkinakis Lena Rogström Rudolf Rydstedt Lars Svensson Språkdata, Institutionen för svenska språket Göteborgs universitet, Göteborg

2 2

3 Innehåll Förord Sture Allén OSA Ett datalingvistiskt projekt Rudolf Rydstedt Inläsningen Yvonne Cederholm SGML-taggning av SAOB Lena Rogström Taggning i praktiken en personlig reflektion Sofie Johansson Kokkinakis Bibliografisk databas Lena Rogström Den ortografiska normen i SAOB Sofie Johansson Kokkinakis SAOB som hypertext Rudolf Rydstedt SAOB:s täckning Lena Rogström OSA-databasen i praktiken Rudolf Rydstedt Etymologierna Lars Svensson Att söka i Språkdatas SAOB-konkordans SAOB på Internet Ordlista

4 4

5 5 Förord Projektet OSA har som primärt syfte är att omarbeta Svenska Akademiens ordbok till en historisk lexikalisk databas. I första avsnittet av denna rapport ges bakgrunden till projektet på basis av Sture Alléns framställning till Svenska Akademien år Projektet leds av professor Sture Allén och i projektgruppen ingår för närvarande också Yvonne Cederholm, Sofie Johansson Kokkinakis, Maja Lindfors Viklund, Ulla Martinsson, Lena Rogström och Rudolf Rydstedt. Denna rapport beskriver hur projektet fortskridit hittills. Arbetet med den optiska inläsningen av materialet behandlas översiktligt. Övriga avsnitt ägnas huvudsakligen åt det nuvarande arbetet med att märka upp ordbokens innehållsstruktur i SGML. (På sidan 77 finns en ordlista där SGML och andra termer förklaras.) Här presenteras taggningsmodellen och den metod vi använt i taggningsarbetet. Vi går också in på problemen med variation på olika nivåer i ordboken och vad det får för konsekvenser när man skall söka i ordboken. Den största delen av denna rapport handlar om ordbokens interna stuktur. Först i nästa rapport kommer tyngdpunkten att ligga på själva användningen av databasen. Användarens perspektiv berörs dock i ett avsnitt av ordbokschefen Lars Svensson, där han skriver om hur konkordansen över SAOB används i ordboksredaktionens arbete. Lena Rogström skriver också om hur hon använt konkordansen i sitt avhandlingsarbete. Konkordansen över SAOB finns tillgänglig på Internet (Internetadresser finns på sidan 75). På Internet finns också finalalfabetiskt ordnade ordlistor och en bibliografisk databas över SAOB:s källor samt en demoversion av SAOB i hypertextformat. Redan idag kan man se att det finns ett stort intresse för en Internetversion av SAOB. Projektet OSA:s hemsidor på Internet besöks idag av ca 300 användare i veckan. Framtida publiceringsplaner på Internet och/eller CD-ROM diskuteras dock inte i denna rapport. Göteborg i augusti 1996 Yvonne Cederholm bitr. projektledare

6 6

7 7 Sture Allén OSA Ett datalingvistiskt projekt Efter framställningen till Svenska Akademien i november 1981 Sammanfattning Projektets titel syftar på forskares och andra användares situation inför ett stort informationsmaterial: Om Svar Anhålles. Många slags frågor med lexikalisk och textuell syftning kan inte få svar, därför att materialet inte är tillgängligt på det sätt som krävs. Syftet med projektet är att läsa in, lagra, bearbeta, tillhandahålla och undersöka lexikaliskt och textuellt stoff med datalingvistiska metoder. Avgörande är att detta nu kan ske på basis av optisk läsning. Projektet har två faser. I den första fasen läses Svenska Akademiens historiska ordbok (SAOB) in med hjälp av en optisk klartextläsare och lagras som en databas. Ordboken, som med sina sidor representerar minst 2000 årsverken, blir härigenom tillgänglig på ett mångfasetterat sätt för sökning och forskning. Från denna synpunkt kan OSA också utläsas Ordbok över Svenska Språket utgiven av Svenska Akademien. Inläsningen av SAOB ger öppningar för den historiska lexikologin. För den nuspråkliga lexikologin förfogar institutionen Språkdata, Göteborgs universitet över ordmaterialet i projektet Lexikalisk databas och i Nusvensk frekvensordbok, vartill kommer den maskinläsbara versionen av Svenska Akademiens ordlista (SAOL). Varje ordbok är emellertid ett urval. Det blir därför viktigt att komplettera de lexikaliska databaserna med texter. Fas 2 ägnas sålunda åt att med den optiska läsarens hjälp göra en serie texter från reformationen till idag tillgängliga i maskinläsbar form. På dessa grundas ordindex, som gör det möjligt att öka täckningen av svenskans ordbestånd. Projektet aktualiserar också centrala datalingvistiska frågor som texters lagringsform, algoritmisk analys av löpande text och hantering av stavningsvariation. Vissa projekt och förstudier på dessa områden har genomförts vid institutionen. Bakgrund Man möter idag en växande insikt om lexikonets centrala roll i perception och produktion av naturligt språk och i beskrivningen av naturligt språk. Lexikonet ses härvid som ett dynamiskt system av morfosemantiska enheter på ord-, ordleds- och frasplanet, underkastade särskilda kombinatoriska regler. Denna inriktning kan sägas profilera europeisk lingvistik (Calzolari, Lenders, Mel cuk, Petöfi, Quemada, Rieser, Zampolli m.fl.) visavi amerikansk. Också på amerikanskt håll kan man emellertid se tecken på en omorientering. Vid Språkdata har vi sedan mitten av 1960-talet på vårt håll bidragit till denna perspektivförändring genom att utveckla och tillämpa datalingvistisk metod och teknik för lexikalisk forskning i mycket vid mening. Det största hittills genomförda projektet har resulterat i publiceringen av Nusvensk frekvensordbok 1 4 ( ), som på drygt 4000 sidor presenterar ord, fraser, ordled och betydelser i ett textmaterial av en miljon ord. I anslutning till frekvensordboken har en rad andra ordböcker givits ut från institutionen. Dit hör Tiotusen i topp (Allén), en mindre

8 8 frekvensordbok. Dit hör Olika lika ord (Berg), ett svenskt homograflexikon. Dit hör också Svensk baklängesordbok (Allén et al.), en specialbearbetning av materialet i frekvensordboken och i Svenska Akademiens ordlista med orden ordnade ordslutsvis. På det lexikaliska området kan vidare nämnas Förnamnsboken (Allén & Wåhlin), som ger uppgifter om de vanligaste förnamnen, och Ord och fras i psalmboken (Gellerstam & Gellerstam). Dessutom ingår i serien Data linguistica en morfolexikalisk beskrivning av nusvenskan (Hellberg). Det största nu pågående projektet är Lexikalisk databas, som syftar till att etablera en välstrukturerad databas med omfattande lexikalisk information om en stor, central del av den nutida svenskans ordförråd. Från databasen skall bland annat genereras och tryckas en modern svensk ordbok, som på 1000 sidor beskriver och definierar omkring ord (databasen som sådan innehåller för närvarande ord). Till databasen är dessutom knutet ett system av datafiler innehållande fackord på ett stort antal ämnesområden. Av andra lexikaliska projekt kan nämnas Vokabulärstudier/SAOL, som genomförs med stöd av Svenska Akademien. Inom detta sker nu en uppdatering av 10 upplagan av Svenska Akademiens ordlista för den kommande 11 upplagan. Vidare har inom projektet Lexikon för invandrare utarbetats ett särskilt avpassat svenskt underlag i storleksordningen ord för översättning till viktiga invandrarspråk. Det kan tillfogas att ordförrådet i institutionens talspråkliga databas en halv miljon ord fria samtal kommer att sammanställas och göras tillgängligt. Vid institutionen finns också Logoteket, ett serviceorgan på nationell bas med uppgift att upprätta en datamaskinell text- och ordbank. Det inrättades 1975 för att möta den ökade efterfrågan på kvalitativa och kvantitativa data om språket från forskare, myndigheter och företag. SAOB i bokform Det största ordboksverk som gäller svenskan är Ordbok över Svenska Språket utgiven av Svenska Akademien (SAOB). Det är en historisk ordbok på hög nivå som ger utförlig information om det svenska skriftspråkets ordförråd från reformationen och framåt. Dess första häfte kom ut Det senaste häftet, som kom 1981, går fram till ordet solanin (en alkaloid). Ordboksartiklarna är i korthet ordnade på följande sätt. Efter uppslagsordet följer en uttalsuppgift, en uppgift om ordklass (i förekommande fall genus), en böjningsuppgift, en uppgift om eventuella sidoformer, en uppgift om variantformer (den s.k. formparentesen) och en uppgift om uppslagsordets etymologi. Dessa uppgifter bildar artikelns huvud. Efter detta kommer betydelsebeskrivningen med tillhörande exempel. Här presenteras de olika urskilda betydelserna jämte uppgifter om bruklighet och äldsta belägg (i vissa fall också yngsta belägg). Slutligen behandlas sammansättningar, avledningar och i vissa fall särskilda förbindelser. SAOB:s hittills utgivna 28 band omfattar c sidor à drygt 8000 tecken, totalt över 200 miljoner tecken. Ett överslag ger vid handen att antalet uppslagsord är av storleksordningen Som jämförelse kan nämnas att senaste upplagan av SAOL innehåller uppslagsord. Den arbetsinsats som ligger bakom SAOB excerpering, redigering, kontroll, administration, tryckning kan lågt räknat anges till 2000 årsverken. Detta gör ordboken till det i särklass största projektet inom i varje fall nordisk språkvetenskap. Uppgiften ger också en antydan om storleken hos den informationsmängd som ryms mellan pärmarna.

9 9 SAOB som databas Till hela denna rikt varierade informationsmängd finns det endast en ingång, den alfabetiska, och den gäller enbart uppslagsorden. Men svaren på en stor mängd grundläggande frågor låter sig inte utletas via den ingången. Frågorna är tvärtom formulerade i helt andra kategorier: kronologiska, morfologiska, semantiska, stilistiska, etymologiska m.m. Hur ser det tidiga 1700-talets ordskatt ut? Hur har neutrum plural på -er utvecklats? Vilka ord definieras som hyponymer till tillvägagångssätt? Vilka ord anges som tillhörande det ekonomiska området? Vilka lånord från engelskan kom in vid tiden för första världskriget? Osv. Vi vet att svaren på sådana frågor finns i de tryckta banden, men de är oåtkomliga för dem som inte gång efter annan vill excerpera hela den väldiga ordbokssviten. Om ordboken vore tillgänglig i databasform, skulle kategorier som de nämnda bli sökbara. Man kunde få svar på frågorna. Fas 1 i projektet avtecknar sig. Det finns nu nämligen en apparat med vars hjälp tryckt text kan överföras i datamaskinellt läsbar form och därigenom göras tillgänglig på ett mycket flexibelt sätt. Det är den optiska läsaren Kurzweil Data Entry Machine. Den består av en skanner (optisk avsökare), två minidatorer, en textskärm och ett sekundärminne. Vid användning kalibreras den först med hänsyn till svärta, sidformat m.m. och tränas sedan att känna igen textens typsnitt. Därefter kan produktionskörning ske. Läshastigheten är 6 12 gånger högre än en sekreterares skrivhastighet, beroende på textens typografiska karaktär. Vid körning visar den sådana tecken på skärmen som har lästs osäkert (på grund av ojämnhet i svärtan, trasiga typer o.d.). Det kräver att en operatör hela tiden är tillgänglig för att ange den rätta läsningen på dessa punkter. Utöver de ingrepp som operatören gör i samband med inläsningen kan texten kontrolleras med hjälp av olika slags program. Dessa kan t.ex. utföra konsekvenskontroller av typen moment 1 skall följas av moment 2, vänsterparentes skall motsvaras av högerparentes osv. De kan bland annat också kontrollera bokstavskombinationerna (grafotaxen): insprutning är ett tillåtligt ord men inte insptutning osv. Kurzweilläsare är i drift vid t.ex. Library of Congress i Washington, New York Public Library, Oxford University Computing Service och English Department vid University of Birmingham. Jag har personlig kontakt med dr Susan Hockey i Oxford och med professor John Sinclair och hans närmaste medarbetare dr Antoinette Renouf i Birmingham. De båda senare har f.ö. nyligen gjort ett längre studiebesök vid vår institution. I Oxford håller man på att lägga upp ett datamaskinellt arkiv med texter på olika språk. I Birmingham har man börjat läsa in ett stort modernt textmaterial. De nämnda forskarnas erfarenhet är mycket god. Genom tillmötesgående från Specialsystem Kinnunen & Co AB, Stockholm, har vi låtit genomföra ett experiment med Kurzweilläsaren. Hos detta företag finns den enda läsaren i landet. Man har där bland annat läst in den norska lagboken. Experimentet, som gjordes i april 1980, gick till så, att vi sände ett par sidor av SAOB (avsnittet serval servare) till företaget för inläsning. Efter mycket kort träning av systemet skedde läsningen. Trots att SAOB i själva verket utnyttjar åtta olika stilar, framstod resultatet som mycket tillfredsställande. För att SAOB skall kunna lagras på ett sådant sätt att de olika kategorierna av information blir sökbara fordras en analys av ordboksartiklarnas logiska och typografiska struktur. Den fasthet som präglar redaktionens arbete är härvid en stor tillgång. Som presentationen ovan visade är artiklarna uppbyggda enligt ett bestämt mönster. En struktur- och systemanalys av det erforderliga slaget har jag tidigare utfört. Det gällde den gången det maskinskrivna manuskriptet till den 1980 publicerade Stora engelsk-svenska ordboken (Esselte Studium; 1100 sidor, uppslagsord). Analysen ledde till att ordboken datasattes och lagrades i en sådan form, att kategorier som

10 10 uppslagsord, uttal, ordklassuppgift, översättning och fraseologi är sökbara. Materialet är också tillgängligt för forskningsändamål. Uppläggningen av SAOB i motsvarande form kräver självfallet en programmeringsinsats. Härvid kan institutionen utnyttja erfarenheten från uppbyggnaden av de system som nu är i drift, främst Lexikalisk databas. Det faktum att SAOB inte täcker hela alfabetet kan inte betraktas som något hinder. Partiet fram t.o.m. solanin innehåller som framgått en myckenhet upplysningar. Det blir inte heller fråga om något systematiskt bortfall med avseende på de sökkategorier som nämnts tidigare. Det rådande förhållandet aktualiserar emellertid efterhand också frågan om SAOB:s tekniska produktionssätt. Den rationaliseringsmöjlighet som i första hand anmäler sig är inkodning och korrigering av redaktörernas lappmanuskript på textskärm. Detta innebär samtidigt "sättning" och ger sålunda direkt underlag för tryckning. Eftersom materialet på detta sätt skulle bli tillgängligt i maskinläsbar form, kunde det också successivt infogas i databasen. Som databas kan SAOB användas för flera nya syften. Den kan för det första hållas tillgänglig för forskningen inom olika områden nationellt och internationellt för att ge svar på frågor av många olika slag enligt ovan. Varje sökbar kategori kan betraktas som en ny ingång. Den kan för det andra tillhandahållas som (kommersiellt tillgänglig) databas för sökning via terminal på företag eller hos myndigheter respektive via hem-tv genom de nya medier som nu utvecklas. Att abonnera på databasen kan för många te sig mer lockande än att köpa boksviten. För det tredje kan nya publikationer presenteras. Exempel på sådana kan vara en kronologiskt ordnad ordbok med äldsta belägg som sorteringsgrund, ett index över en periods ordskatt, t.ex talets, och en sammanställning av lånord med långivande språk som indelningsprincip. För det fjärde kan bearbetningar göras som främjar det fortsatta arbetet vid ordboksredaktionen. Ett exempel är en baklängeslista över uppslagsorden. Ordbokschefen har förklarat sig intresserad av en sådan. För det femte är databasen ett utomordentligt fängslande objekt för lingvistisk forskning. Undersökningar kan göras av såväl formella som innehållsliga kategorier liksom av kombinationer av kategorier. I synnerhet vill jag trycka på möjligheten att studera den svenska vokabulärens semantiska struktur. Som underlag för sådana studier kan olika slags bearbetningar utföras. En är helt enkelt en framtagning av en konkordans över de ord i betydelseförklaringarna som inte är formord. En annan, mer avancerad, är algoritmisk syntaktisk analys av betydelseförklaringarna i syfte att bestämma huvudorden (genus proximum). Över huvud taget är det viktigt att den utförliga semantiska informationen i SAOB görs lätt tillgänglig för forskningen. Svenska texter Ingen ordbok över ett levande språk kan täcka dess vokabulär fullständigt. Också SAOB och Lexikalisk databas är urval. För att få ett ännu fastare grepp om ordbeståndet och för att skapa underlag för många textuellt inriktade forskningsuppgifter är det därför av stor vikt att med utrustningens hjälp läsa in texter från den nysvenska epoken (tiden från reformationen till nu). Detta är fas 2 i projektet. Avsikten är att läsa in såväl skönlitterära som andra texter enligt en fyllig plan som senare specificeras. Till texterna utarbetas ordindex. Dessa registrerar samtliga ord i materialen med källhänvisningar. Vid den närmare utformningen av ordindexen beaktar man att de 200 vanligaste orden i ett textmaterial svarar för hälften av alla beläggen i texten. Genom sampling kan den datamängd som gäller formorden således reduceras på olika sätt vid presentationen av ordindexen. Grundtanken bibehålls: de lexikaliska databaser-

11 11 na kompletteras med fullständiga index över ordbeståndet i ett stort textmaterial. Också konkordanser av olika slag kan utarbetas. Svaren på en rad frågor får härigenom ökad säkerhet. De inlästa texterna låter sig på ett naturligt sätt infogas i Logotekets text- och ordbank. Detta serviceorgan vid institutionen har kortfattat beskrivits i det föregående. Den optiska textinläsningen ger så stora material, att vissa datalingvistiska forskningsuppgifter särskilt framhävs. Det finns anledning att antyda tre av dessa. En av dem gäller utveckling av metodiken för effektiv lagring av text. Texten kan naturligtvis lagras sekventiellt, ord för ord i den ordning inläsningen ger. En sådan lagringsform är användbar för åtskilliga syften. Den kan modifieras genom olika slag av komprimering, vilket dock fordrar uppackning vid vissa tillämpningar. Ett fascinerande alternativ är att lagra texten i form av ett länkat nätverk. I detta fall lagras varje förekommande ordform endast en gång. Genom pekare anges orden i kontexten, föregående och efterföljande ord i alfabetisk ordning och i frekvensordning m.m. Nätverket innehåller alltså samtidigt texten själv, alfabetiskt ordindex, konkordans, frekvenslista m.m. Ändringar i texten medför automatiskt ändringar i ordindex, konkordans osv. En annan forskningsuppgift som blir av stor betydelse är algoritmisk analys av löpande text. Olika slag av syntaktisk analys (s.k. parsing) har prövats på många håll med varierande resultat. Den nyss nämnda formen för lagring av text synes öppna nya möjligheter. Om textanalysen baseras på ett länkat nätverk, har programmet samtidigt tillgång till syntagmatisk (kontextuell) och paradigmatisk (gällande alla belägg på samma ordform) information. Detta i kombination med de kraftfulla lexikaliska databaserna ger den algoritmiska textanalysen mycket intressanta förutsättningar. Den sista av de tre forskningsuppgifter jag vill peka på gäller stavningsvariationen i texterna. Den är ju stor i tidigare århundradens texter. Den rymmer emellertid en hel del regulariteter som kan utnyttjas för att bland annat sammanföra ordformer i ordindexen. Också detta kräver naturligtvis ett utvecklingsarbete. * * * Svenska Akademien beslöt att svara för personalkostnaderna, och medel till inköp av läsutrustningen ställdes till förfogande av Knut och Alice Wallenbergs Stiftelse.

12 12

13 13 Rudolf Rydstedt Inläsningen En av de bärande tankarna bakom OSA-projektet var att introduktionen av optisk läsning (OCR-teknik) gjorde det realistiskt att göra om SAOB till en lexikalisk databas (jämför OSA Ett datalingvistiskt projekt på sidan 7). Det som gjorde den optiska läsningen tilltalande var att den framstod som ett ekonomiskt mycket fördelaktigt alternativ till manuell inkodning. De praktiska prov som utfördes i samband med upphandlingen av läsare var också lovande: maskinen markerade osäker läsning en gång per 200 tecken och korrigering behövdes en gång per tecken. Läshastigheten var 20 tecken per sekund. År 1982 omfattade SAOB närmare tecken. Med 25 timmars effektiv drift per vecka skulle därmed inläsningen totalt kräva 111 veckors arbete, i storleksordningen tre år. Det praktiska arbetet kom igång våren 1983, men inläsningen tog inte slut 1986 utan tio år senare, i januari Utan några jämförelser i övrigt, är det lätt att notera en förlängning med ungefär samma faktor som den framställandet av själva ordboken har genomgått. Den yttersta orsaken till att inläsningen kom att ta betydligt längre tid än förväntat var att utrustningen fungerade sämre än vad proven före upphandlingen hade givit anledning att förmoda. Det visade sig snart vara nödvändigt med ett omfattande korrekturarbete för att det inlästa materialet skulle kunna användas som underlag för vidare bearbetningar. Till en början utfördes både inläsning och korrektur internt inom projektet. Med tiden skedde dock en övergång till att utnyttja externa leverantörer i stället. Dessa åtog sig nämligen att leverera materialet till mycket låg kostnad mot att de kunde använda SAOB som en s.k. strumpsticka, ett lägre prioriterat arbete som används för att jämna ut beläggningen. Fördelen för projektets del var att kostnaden blev lägre än om inläsning och korrektur hade skett i egen regi. Nackdelen var att möjligheterna att förutse precis när det inlästa materialet skulle komma att levereras minskade. Det som gjorde att en inläsning med låg intensitet under längre tid var rimlig var att det inledande arbetet med att fånga SAOB:s struktur (diskuteras i SGML-taggning av SAOB på sidan 15 och framåt) utfördes med en så begränsad personalinsats (under tre heltidsekvivalenter) att ett lägre tempot i materialleverenserna aldrig behövde bli en faktiskt begränsande faktor. En naturlig fråga är vilka implikationer som erfarenheterna från OSA-projektet har för datafångsten i andra projekt. En viktig erfarenhet är att det inte går att ge ett enkelt och generellt giltigt svar på frågan om det lönar sig med optisk läsning eller inte. Till en del beror det på att den allmänna tekniska utvecklingen gör att den optiska läsningen med tiden har blivit billigare och säkrare. Den största skillnaden mellan idag och början av 80- talet ligger dock i sänkta kostnader för utrustningen, inte i höjd läskvalitetet. Detta är olyckligt med tanke på projekt där stora mängder text skall fångas då kostnaden för utrustning spelar ganska liten roll för totalkostnaden i dessa jämfört med läskvaliteten och den därav beroende kostnaden för efterkorrigeringar. Däremot är naturligtvis låg initialkostnad väsentlig i projekt där små textmängder skall fångas. En tumregel kan vara att man bör ha starka skäl för att inte undersöka hur väl optisk läsning fungerar om den text som skall fångas är mer än något dussin sidor lång. Men det är inte bara den optiska läsningen som har utvecklats sedan 80-talets början. En väsentlig faktor är att även verktygen för manuell inkodning har genomgått en betydande utveckling. Det är tankeväckande att persondatorn var ny och föga spridd när OSA-projektet inleddes. En indirekt konsekvens av det var att inkodning i tredje världen inte förekom i nämnvärd omfattning vid den tiden. Idag är manuell inkodning i låglöneländer en viktig konkurrent till optisk inläsning.

14 14 Nu skall inte skillnanden mellan optisk läsning och manuell inkodning övervärderas. Oberoende av hur texten fångas så måste den genomgå en efterföljande bearbetning för att nå acceptabel kvalitet: både optiska läsare och mänskliga inkodare gör fel. Detta leder t.ex. till att det ofta är mindre viktigt hur många fel det finns i den fångade texten jämfört med hur lätta dessa fel är att identifiera och rätta till. Det finns naturligtvis ett samband i det att en text med mycket fel normalt kräver mer arbete för att bli rimligt korrekt än en med få fel, men det finns många subtila faktorer som påverkar hur tung korrekturprocessen blir. Så är en text som i väsentlig grad består av fasta formler betydligt mera tillgänglig för maskinella korrektioner än en mera varierad. I fallet med SAOB råder det mycket stora skillnader mellan olika delar av texten. Bruklighetsangivelserna är t.ex. normalt rena formler. Detta gör det lätt att säkert göra rättelser rent maskinellt: står det rnindrc br. är det lätt att ändra till mindre br. Motsatt förhållande gäller för språkproven. Dessa har en variation inte minst i fråga om stavningen som gör att det endast undantagsvis går att utföra korrektioner säkert maskinellt. En poäng är dock att det även här är de typiska felen vid optisk läsning som är lättast att justera säkert maskinellt: en människa som skriver av accijsen fel skriver kanske accisen, maskinen skriver snarare accij8en. Det senare ser värre ut, men det är lätt att lägga märke till. För att summera: OSA-projektets erfarenheter av optisk inläsning är inte entydligt positiva, men de är tillräckligt goda för att optisk inläsning skall framstå som ett alternativ värt att överväga även vid arbete med tekniskt mindre lätthanterlig text. Inte minst har det visat sig att de typiska fel som optiska läsare gör ofta är betydligt lättare att rätta till under det efterföljande korrekturarbetet än de fel som en mänsklig inkodare skulle göra i motsvarande situation.

15 15 Yvonne Cederholm SGML-taggning av SAOB I detta avsnitt beskrivs hur den optiskt inlästa texten översätts till SGML-format 1, där ordbokens innehållsliga struktur taggas. Målet är att SAOB efter taggningsarbetet skall kunna användas som en lexikalisk databas, där man kan göra komplexa sökningar som t.ex. "vilka ord lånades in från engelskan under perioden ". Taggningen gör tolkningen av texten explicit. Den implicita information, som i den tryckta ordboken signaleras med hjälp av typografin och lätt kan tolkas av en mänsklig användare, blir genom taggningen också maskinellt sökbar. SGML-taggarna kommer naturligtvis inte att visas för den mänsklige läsaren, utan varje informationskategori associeras då med en viss typografi. Typografin behöver inte fastställas en gång för alla. Man kan välja utformning beroende på vilken läsare man riktar sig till och exempelvis ge ordboken en mer pedagogisk utformning med utförliga förklaringar, eftersom man inte behöver ta hänsyn till utrymmet på samma sätt som i tryckta media. Detta avsnitt beskriver dock endast SGML-taggningen. Följande exempel får belysa taggningsarbetet. Enligt en vanlig lexikografisk konvention markeras lexikonartiklars betydelseindelning med siffror. Siffrorna står oftast också i fetstil för att indelningen skall framgå tydligt. Här följer ett utsnitt ut SAOB-artikeln champagne, som beskriver sammansättningen champagneglas. Vi ser att i den första versionen är sammansättningens två betydelser markerade med siffror i fetstil som i en tryckt ordbok. I den andra har vi istället satt in taggen <SENSE>. -GLAS -2 1) för drickande av champagne särsk. afsedt vinglas; vanl. antingen högt o. smalt l. lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade champagneglasen äro de bästa. HAG- DAL Kok (1879). LUNDIN G. Sthm 147 (1880). KALLSTENIUS Hush. 184 (1896). 2) (i sht best., föga br.) med champagne fylldt glas. Det är med den första -GLAS -2 <SENSE n=1> för drickande av champagne särsk. afsedt vinglas; vanl. antingen högt o. smalt l. lågt o. vidt. DA 1824, nr 205, s. 4. De gamla kägelformade champagneglasen äro de bästa. HAG- DAL Kok (1879). LUNDIN G. Sthm 147 (1880). KALLSTENIUS Hush. 184 (1896). <SENSE n=2> (i sht best., föga br.) med champagne fylldt glas. Det är med den första Den första versionen kan enkelt tolkas av en mänsklig användare. Ett dator som skall söka i ordboken kan däremot inte "förstå" att just dessa siffror i fetstil markerar en betydelseindelning. För att programmet skall kunna skilja på dessa siffror och andra siffror i fetstil i ordboken, måste man lägga till information i form av taggar som gör att programmet tolkar det som en betydelseindelning. I exemplet ovan lade vi till taggen <SENSE> 1.SGML är en internationell standard som finns beskriven i ISO 8879: Information processing Text and office systems Standard Generalized Markup Language (SGML), Geneva De som inte är bekanta med SGML rekommenderas att läsa t.ex An introduction to SGML av Benoît Marchal som finns tillgänglig på Internet under adressen eller kapitel 2 i Burnard & Sperberg-McQueen Guidelines for Electronic Text Encoding and Interchange (TEI P3) som också ger en allmän introduktion till SGML.

16 16 som inleder betydelsemoment. Taggen har ett också ett attribut n, som anger betydelsens ordningsnummer. På samma sätt markeras alla andra informationskategorier i ordboken. Bakgrund och förutsättningar för taggningsarbetet SAOB i sin tryckta version är satt i åtta olika stilar, men OCR-programmet känner endast igen normalstil, fetstil och kursiv. (Alla exempel från OSA-materialet i denna rapport återges också med dessa tre stilar.) Normalstil, fetstil och kursiv och andra typografiska markörer, som exempelvis parenteser, komman och punkter, utgör de viktigaste hållpunkterna när man skall hitta gränserna mellan de olika informationskategorierna. Huvuddelen av taggningen görs automatiskt med efterföljande manuella kontroller. Viss svåridentifierad information måste dock taggas helt manuellt. Eftersom taggningsarbetet ännu inte är slutfört redovisar vi här också en del problem som vi ännu inte har tagit ställning till. Taggningsarbetet grundas på de beskrivningar av artikelstrukturen som finns i litteraturen om SAOB. Främst på de två handledningar som har utarbetats för redaktörerna (Kock 1904; Jonsson 1993), men också på annan litteratur om SAOB (Ekbo 1971; Lundbladh 1992 etc.). All variation i SAOB:s artikelstruktur är naturligtvis inte dokumenterad i dessa beskrivningar, eftersom de haft andra syften handledningarna utgör riktlinjer för redaktörernas arbete och den övriga litteraturen har i första hand ett pedagogiskt syfte. Taggningsarbetet har därför till stor del haft karaktären av ett utgrävningsarbete där vi undan för undan frilagt olika strukturella lager i SAOB. Ordböcker har generellt en mycket komplex struktur som text betraktat och SAOB är naturligtvis ett extremfall bland ordböcker. Artiklarnas längd varierar mellan några få rader och upp emot hundra spalter. En artikel kan omfatta hundratals olika betydelsenyanser och varje betydelse kan exemplifieras med flera språkprov. Den enorma detaljrikedomen gör strukturen mycket svåröverskådlig och det är omöjligt att på förhand definiera en grammatik som beskriver hela SAOB:s struktur i detalj. Själva struktureringsarbetet blir ett sätt att ta fram denna okända grammatik. Kazman (1986, s ) som arbetat med struktureringen av The Oxford English Dictionary säger att uppgiften att strukturera en sådan stor ordbok liknar det problem som inom mönsterigenkänningsområdet kallats "The Grammatical Inference Problem". Problemet beskriver han enligt följande. Input består av en mängd strängar som antingen accepteras eller förkastas av en okänd grammatik. Man tillämpar någon slags procedur för skilja acceptabla strängar från icke-acceptabla och genom detta får man gradvis kunskap om hur den okända grammatiken ser ut. Ett liknande uppgift, skriver Kazman, är att försöka skriva en grammatik för ett dött språk. Då de första delarna av ordboken publicerades var principerna för ordbokens struktur inte fastlagda. En handledning för redaktörerna, som redigerades av Ernst Kock, färdigställdes först år Då hade hela bokstaven A och stora delar av C redan publicerats. Det innebär att det finns många strukturella avvikelser i de första delarna jämfört med de senare delarna. Exempelvis finns inga avledningsramsor på bokstaven A, utan avledningarna utgör där egna huvudartiklar. Även i de senare delarna förekommer det avvikelser i strukturen, vilka även om de inte innebär någon större svårighet för en mänsklig läsare komplicerar struktureringsarbetet inom projektet. SAOB anses dock ha en relativt sett stringent struktur och genomförd typografi. Sture Hast (Svensson et al. 1993, s ) har gjort en jämförelse mellan de fyra stora germanska ordböckerna, The Oxford English Dictionary (OED), Grimms Deutsches Wörterbuch, Woordenboek der Nederlandsche Taal (WNT) och SAOB. Han kommer fram till att OED och SAOB har en mera stringent och lingvistisk uppläggning än de andra två. OED är dock, enligt Sture Hast, den mest enhetligt utformade ordboken eftersom det i SAOB finns stora diskrepanser i framställningen mellan olika redaktörer och tidsperioder. Att OED är den mest enhetligt utformade ordbo-

17 17 ken beror antagligen på att James Murray själv skrev eller ansvarade för nästan hälften av alla artiklar i ordboken. Det finns naturligtvis ingen möjlighet att arbeta om strukturen i de första delarna inom ramen för OSA-projektet. Den lexikaliska modell vi utarbetar måste vara generös och tilllåta en stor variation i såväl makrostruktur som mikrostruktur. Den måste bygga på den stramare strukturen i de senare banden, men samtidigt rymma de första bandens fria artikelstruktur. En ovan användare måste kunna söka i hela ordboken utan att känna till några detaljer om variationen i artikelstrukturen, eftersom det främsta syftet med projektet ändå är att göra ordboken mer lättillgänglig. Uppläggning av taggningsarbetet Vi har delat in taggningsarbetet i olika faser. Den första fasen är en identifieringsfas där gränserna mellan de olika informationskategorierna lokaliseras och de typografiska koderna översätts till SGML-taggar. Det är i denna fas vi nu befinner oss och det är huvudsakligen identifieringsfasen som beskrivs i detta avsnitt. Denna fas är också den mest arbetskrävande i projektet. I nästa fas byggs de enskilda elementen samman till en komplex SGML-struktur och grammatiken över ordbokens struktur fastställs i en s.k. document type definition (DTD). Våra planer är att så långt som möjligt följa den DTD för tryckta lexikon som rekommenderas av Text Encoding Initiative (TEI P3 1984: ). I TEI P3 pekar man på den stora strukturella variation som finns i ordböcker. På grund av detta har man valt att definiera två modeller. En modell med en fast struktur vilken skall täcka in de vanligaste typerna av ordböcker samt en alternativ modell som utgår från samma element, men som medger att man kan kombinera alla element relativt fritt.... because the structure of dictionary entries varies widely both among and within dictionaries, the simplest way for an encoding scheme to accommodate the entire range of structures actually encountered is to allow virtually any element to appear virtually anywhere in a dictionary entry. (TEI P3 1994, s. 321) Vi bör kunna använda oss av den friare modellen som utgångspunkt, men vissa omfattande tillägg måste ändå göras för att DTD:n skall täcka SAOB:s komplexa struktur. Några av komplikationerna nämns nedan. I den sista fasen av taggningsarbetet kommer vi att lägga till viss information till texten. Vi kommer att normalisera stavningen av uppslagsorden. Källhänvisningarna kommer också att normaliseras så att de kan länkas till en bibliografisk databas. Vi kommer att undvika att ändra i själva texten och istället lägga de normaliserade formerna i SGMLtaggarna. Alla korsreferenser och hänvisningar till de behandlade orden skall också formaliseras i denna fas, så att man kan kontrollera hela systemet av korsreferenser automatiskt. Vi kommer inte att här diskutera vilket sökspråk eller söksystem som skall användas för SAOB när taggningsarbetet är avslutat. PAT, det system som används för att söka i OED (se t.ex. Salminen 1994), kan hantera sökningar i stora SGML-strukturerade dokument och verkar vara det bästa systemet i dagsläget. Tyvärr finns inte idag något fullständigt frågespråk som kan hantera SGML. Detta beror på att SGML från början inte alls var tänkt att vara ett databasformat, utan utformades för att fungera som ett utbytesformat mellan olika ordbehandlingsformat. Eftersom antalet SGML-kodade dokument ökat kraftigt de senaste åren har det uppstått ett behov av att kunna söka i och uppdatera dessa dokument. Det finns flera forskningsprojekt som arbetar på att ta fram en väldefinierad semantik för SGML och att utveckla ett fullständigt frågespråk som innebär att man kan söka i och ändra i dokumenten på ett väldefinierat sätt. Raymond och Tompa (1995) ger

18 18 en översikt av problemställningarna i From Data Representation to Data Model: Meta-Semantic Issues in the Evolution of SGML. En modell som Blake et al. (1994) har arbetat på är att utvidga SQL till att också kunna hantera SGML. Vi valde till en början att låta elementens namn ligga nära SAOB:s egen terminologi. Efter att TEI P3 publicerades 1994 har vi dock lånat många elementnamn därifrån, speciellt för de formella informationskategorierna. Elementnamnen utgör därför för närvarande en oskön blandning av svenska och engelska, men vi har valt att låta det vara så tills vi börjar med nästa fas av taggningsarbetet. Taggningsarbetet beskrivs nedan med utgångspunkt från respektive informationskategori. Den allmänna beskrivningen av informationskategorierna bygger på Lundbladhs Handledning till Svenska Akademiens ordbok från 1992 och jag har också försökt hålla mig till den terminologi som Lundbladh använder. Primärstrukturen SAOB:s skelett Vi har valt att skilja på två typer av informationskategorier. Den ena typen är de lexikaliska enheterna i artiklarna, nämligen uppslagsord, sammansättningar, avledningar, särskilda förbindelser samt betydelsemoment. Den andra typen är information som är knuten till dessa lexikaliska enheter, antingen på den formella eller semantiska nivån, t.ex. uttal, ordklass, böjning, etymologi, definitioner och språkprov. Vår strategi var att först bygga ett strukturellt skelett av de lexikaliska enheterna. Skelettet kallar vi för primärstrukturen och det utgörs för närvarande av ca lexikaliska enheter. Här ingår också en del taggar som markerar grupperingar av de lexikaliska enheterna, t.ex. ramsor. Förutsättningen för att etablera det strukturella skelettet var att man relativt enkelt kunde isolera de lexikaliska enheterna maskinellt. Programmen måste sålla ut dessa enheter och inget annat i texten, enbart på grundval av den typografiska informationen. Svårigheten var att hitta de mönster som beskrev exakt de lexikaliska enheterna och inget annat. Den typografiska information som OCR-programmet känner igen var en relativt mager utgångspunkt för struktureringsarbetet. Mönstren utgjordes av koderna som angav stilbyte mellan brödstil, kursiv och fetstil, samt andra typografiska markörer som t.ex. parenteser av olika slag, kolon, semikolon och indrag. Mönstren, som utgör reguljära uttryck, översattes sedan till SGML-taggar. Implementeringen gjordes i sed och Perl. Tabell 1: tagguppsättning för primärstrukturen starttagg sluttagg beskrivning <ARTIKEL> artikel <HAENV> hänvisning <L> </L> huvudord (lemma) <SSGR> sammansättningsramsa <SSGART> sammansättningsartikel <FL> </FL> förled i sammansättning <EL> </EL> efterled i sammansättning <AVLEDN> avledningsramsa <AVLART> avledningsartikel

19 19 Tabell 1: tagguppsättning för primärstrukturen starttagg sluttagg beskrivning <AL> </AL> avledning <FOERB> ramsa med särskilda förbindelser <FBART> artikel för särskild förbindelse <FBG> </FBG> särskild förbindelse grundord <P1> </P1> särskild förbindelse partikel <MD> betydelsemoment på 1:a nivån (huvudmoment, anges i tryck med arabiska siffror) <MA> betydelsemoment på 2:a nivån (anges i tryck med gemener) <MG> betydelsemoment på 3:e nivån (anges i tryck med grekiska bokstäver) <MP> betydelsemoment på 4:e nivån (anges i tryck med grekiska bokstäver kombinerat med prim-tecken) <MB> betydelsemoment på 5:e nivån (anges i tryck med grekiska bokstäver kombinerat med bis-tecken) <MR> momentgruppering (syntaktiska kriterier; anges i tryck med romerska siffror) <MV> momentgruppering (icke-syntaktiska kriterier; anges i tryck med versaler) Det har varit nödvändigt att göra omfattande sorteringar av materialet för att hitta dessa mönster. För att exemplifiera hur detta kan gå till kan vi återknyta till exemplet med betydelseindelningen i artikeln champagne ovan. I detta fall skulle man först sortera kontexten för alla siffror i fetstil i SAOB. Man gör sedan en bedömning om alla siffror är ordningsnummer i betydelseindelningen. I så fall byter man ut dem mot taggen <SENSE n=1>, <SENSE n=2> o.s.v., som i exemplet ovan. Detta är ett naturligtvis ett starkt förenklat exempel eftersom det finns miljontals siffror i fetstil i SAOB, vilka förekommer i en mängd olika funktioner. Mönstren som vi definierar är mycket mer komplicerade, men exemplet visar på själva tillvägagångssättet. Vi gör omfattande provtaggningar på små partier från olika delar av ordboken på grund av den strukturella variationen innan vi slutligen taggar hela materialet. Man måste acceptera en viss felprocent på grund av svårigheten att överblicka strukturen, men den får inte vara större än att felen går att korrigera manuellt i efterhand. Om man taggar enheter maskinellt och får med andra enheter av misstag, så tar detta lång tid att korrigerera manuellt. Detta kan tyckas vara en trivial upplysning, men jag vill trycka på att det är ordbokens storlek som karaktäriserar hela detta projekt och då speciellt svårigheten att överblicka hela materialet. Makrostrukturen Det är relativt lätt att hitta gränserna mellan huvudartiklarna i SAOB, eftersom de markeras typografiskt med ny rad och indrag. Det finns dock en annan typ av artiklar som är svårare att hitta eftersom uppslagsordet kan stå var som helst på raden, endast åtskilt

20 20 med ett streck. Uppslagsordet är då besläktat med föregående uppslagsord, se t.ex. piemontesare. Sammanlagt har cirka huvudartiklar identifierats. Artikelgränsen taggas: <ARTIKEL> Sammansättningar, avledningar och särskilda förbindelser behandlas normalt i de s.k. ramsorna. Vissa sammansättningar, avledningar och särskilda förbindelser behandlas dock av olika skäl i egna huvudartiklar. Det finns då en hänvisning från ordets alfabetiska plats i ramsan till huvudordet. Förhållandet mellan huvudorden och orden i ramsorna är komplicerat. Vissa ramsor är exceptionellt långa och ramsan bryts då av andra artiklar. I artikeln o- bryts sammansättningsramsan odaterad, odaterbar av artikeln odds. Denna artikel har i sin tur en sammansättningsramsa: oddssiffra, oddstal. Upplagsordet o- återkommer sedan och sammansättningsramsan fortsätter med odebiterad, odechiffrerad etc. Ramsan i artikeln o- är sammanflätad med övriga artiklar på detta sätt genom hela bokstaven O. Denna uppbrutna artikelstruktur har också t.ex. artiklarna för-, före-, i, in, inne, kring, med, miss-, mot, ned, om, på, re-, sam-, samman och sam-. Den diskontinuerliga artikelstrukturen är ett bra exempel på SAOB:s strukturella egenheter och varför de standardmodeller som används inom TEI måste byggas ut. Artiklarna förses med unika identifierare, för att man skall kunna hantera alla korsreferenser automatiskt. Identifieraren utgörs oftast enbart av uppslagsordet, som exempelvis: <ARTIKEL id= SLÄGEL > Om det finns homografer till uppslagsordet utgörs identifieraren av uppslagsordet samt ordklass och homografnummer, t.ex: <ARTIKEL id= SLÄNTA.sbst2 > Vi har dessutom diskuterat olika möjligher att lägga till ınformation om artiklarnas tillkomst. Man skulle kunna förse artiklarna med de tryckningsdatum, som finns angivna på varje ark i ordboken. Detta datum är viktigt t.ex. för att precisera vissa bruklighetsangivelser. Bruklighetsuppgifter, som t.ex. numera mindre brukligt, är helt beroende av när artikeln skrevs. Vi har också diskuterat möjligheten att förse varje artikel med uppgift om artikelförfattare, i de fall det är känt. Från och med häfte 52 i band IV anges artikelförfattarna på pärmarnas insida. Lars Svensson (Svensson et al. 1993, s ) har dessutom försökt kartlägga vilka som skrev de osignerade artiklarna i de tidigare banden. Huvudord Alla behandlade ord markeras med versaler i fetstil i SAOB. Detta var helt avgörande för att vi skulle kunna hitta huvudorden, sammansättningarna, avledningarna och de särskilda förbindelserna. Omkring huvudord har identifierats hittills. Huvudorden taggas som exemplet nedan. <L>AFSTÅ</L> Efter att huvudorden taggats gjorde vi en automatisk kontroll av att huvudorden kommer i alfabetisk ordning. Denna kontroll gjordes för att fånga upp kvarvarande fel från den optiska inläsningen. I denna kontroll upptäckte vi emellertid också fel i den tryckta ordboken. 1 Stavningen av vissa uppslagsord måste normaliseras, t.ex. stavningen med f istället för v i ord som af, afstå, afgöra och stavningen med ä istället för e i ord som rägn (se "Den ortografiska normen i SAOB" på sidan 43 och framåt.). När man normaliserar stavningen av

Visa mer