Termyn. Automatisk insamling och extraktion av myndighetsföreskrifter för termexcerpering. Henrik Nyh

Transkript

1 Termyn Automatisk insamling och extraktion av myndighetsföreskrifter för termexcerpering Henrik Nyh Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 4 juni 2007 Handledare: Beáta Megyesi, Uppsala universitet Henrik Nilsson, Terminologicentrum TNC

2 Sammandrag I detta arbete samlas svenska myndighetsföreskrifter in från webben varpå de dokument som innehåller termer med definitioner extraheras. Extraherade dokument presenteras i ett webbgränssnitt med relevanta textavsnitt visuellt utmärkta och hyperlänkade. Datainsamling och extraktion sker automatiskt utifrån handskrivna regler. Extraktionsreglerna bygger på informationsmönster och liknande mönster formaliserade genom reguljära uttryck och traversering av HTML i trädrepresentation. Arbetet har utförts i samarbete med Terminologicentrum TNC och är avsett att stödja det manuella arbetet med att berika Rikstermbanken, en nationell svensk termbank. En utvärdering av extraktionen mot två terminologers manuella klassificering visar på god täckning, runt 90,0 %, och acceptabel precision, runt 47,4 %. Den klassificering som det utvecklade systemet gör är lika eller mer enig med den ena terminologens indelning än vad de båda terminologerna är med varandra. Abstract This thesis describes the retrieval of Swedish authority regulations from the World Wide Web and the subsequent extraction of those documents that contain terms with definitions. The extracted documents are presented in a web interface with the relevant parts highlighted and hyperlinked. Retrieval and extraction are automatic from hand-written rules. The extraction rules are based on knowledge patterns and similar patterns formalized as regular expressions and HTML document tree traversal. The thesis was done in association with Terminologicentrum TNC The Swedish Centre for Terminology to aid their work with Rikstermbanken, a national Swedish term bank. An evaluation of the extraction against manual classification by two terminologists shows good recall, around 90.0%, and acceptable precision, around 47.4%. The agreement between the classifications of the system developed in this thesis and those made by one of the terminologists is equal to or higher than the agreement between both terminologists.

3 Innehåll Sammandrag 2 Abstract 2 Förord 6 1 Inledning Syfte Disposition Terminologi Terminologiläran Begreppsanalys Terminologiarbete Arbetsgång Termextraktion Statistiska metoder Lingvistiska metoder Hybridsystem Extraktion av relationer och definitioner Datainsamling Data Urval Insamling Extraktion av dokument Bearbetning Analys Regler Sökning i löptext Sökning i rubriker Webbgränssnitt Utvärdering av dokumentextraktion Guldstandard Kappa Precision och täckning Termyn Kappa

4 5.2.2 Precision och täckning Diskussion Framtida utvecklingsmöjligheter Sammanfattning 39 Litteraturförteckning 40 A Bilagor 44 A.1 Nedladdningsregler A.2 Extraktionsregler

5 Figurer 2.1 Generiskt begreppssystem Begreppstetraedern Post från Europeiska kommissionens flerspråkiga termbank Euro- DicAutom TerminoWeb Trädrepresentation av HTML Webbgränssnitt för extraktionsresultat Webbgränssnitt för manuell dokumentklassificering

6 Förord Tack till mina handledare Henrik Nilsson och Beáta Megyesi för all hjälp. Tack också till A och B vid Terminologicentrum TNC för hjälpen med utvärderingen, och till alla andra där för möjligheten att göra det här arbetet. Biblioteket på TNC har min uppskattning för sina bidrag till den digra litteraturlistan. Professor Joakim Nivre var till stor hjälp med statistiken. Tack vidare till Filip Salomonsson, Björn Lindström och Mirza Škornja för värdefulla synpunkter under arbetets gång. Tack till Fredrik Bränström för hjälp med korrekturläsning. 6

7 1 Inledning Tydlig och entydig kommunikation mellan lekmän och fackmän, eller mellan medborgare och myndigheter, förutsätter att fackuttryck används på ett enhetligt sätt. En etablerad terminologi underlättar också utbyte mellan fackmän och samarbete mellan myndigheter. Terminologer arbetar med just detta att systematisera begrepp, hitta goda termer och skriva definitioner. Ett viktigt led i detta terminologiarbete är excerpering: att ur facktexter extrahera termer, deras innebörd och deras användning. Att arbetet är tidskrävande och mödosamt, och att det numera publiceras stora mängder maskinläsbar text (inte minst på webben), har medfört att många metoder för s.k. automatisk termextraktion utvecklats. En mer rättvisande benämning är halvautomatisk eller datorstödd extraktion, då datorn ger förslag som måste kontrolleras manuellt. Sådan extraktion tjänar inte enbart till att snabba upp terminologiarbetet; att automatiskt hitta termer i ett källmaterial är också till stor nytta för till exempel översättning 1 och informationssökning 2. I Sverige utvecklas just nu på regeringens uppdrag en nationell så kallad termbank, Rikstermbanken, av det statligt finansierade företaget Terminologicentrum TNC. En termbank är en elektronisk terminologisk ordlista. Rikstermbanken är avsedd att omfatta termer från ett flertal fackområden och ska kunna användas av både företag och myndigheter. Ett av projektets syften är harmonisering av terminologi mellan olika myndigheter och organisationer (TNC, 2007). 1.1 Syfte Syftet med det här arbetet är att samla ihop svenska myndigheters föreskrifter från webben och automatiskt extrahera de dokument som innehåller definitioner av termer 3. Det system som utvecklas för detta kallas Termyn. Arbetet utförs i samarbete med Terminologicentrum TNC och utgör underlag för vidare manuell excerpering i syfte att berika Rikstermbanken. Metoden för att avgöra vilka dokument som ska extraheras är inspirerad av conceptual sampling (Meyer m.fl., 1999) och vidhörande idéer om informations- 1 Flerspråkig termextraktion extraherar förutom termer även deras ekvivalenter på andra språk. 2 Facktermer i ett dokument fungerar ofta även som indextermer för detsamma. Indextermer är sådana nyckelord och -fraser som inom informationssökning anses känneteckna dokumentet. 3 Enligt begreppsanalysen (se sektion 2.1.1) är både termer och definitioner bestämningar till begrepp: definitioner hör till begrepp, inte direkt till termer. Definitioner av termer och liknande formuleringar i det kommande är därför inte helt korrekta, men behändiga. 7

8 mönster återkommande grammatiska, lexikala eller paralingvistiska mönster som avslöjar begreppsrelationer som tidigare använts för automatisk extraktion av termer och definitioner. I detta arbete används informationsmönster och andra relaterade mönster för att extrahera dokument och inom dessa peka ut relevanta textavsnitt. Resultatet utvärderas mot manuell dokumentsökning med avsee på enighet, precision och täckning. 1.2 Disposition I kapitel 2 redovisas relevant bakgrund och tidigare forskning om termextraktion. Kapitel 3 redovisar insamlingen av föreskrifter och kapitel 4 redogör för extraktionen av relevanta dokument. I kapitel 5 utvärderas arbetet. Kapitel 6 diskuterar utvärderingens resultat och innehåller reflektioner om framtida utvecklingsmöjligheter. Det avslutande kapitel 7 sammanfattar arbetet. I två bilagor redovisas de regler som utvecklats för nedladdning (bilaga A.1) och extraktion (bilaga A.2). 8

9 2 Terminologi I det här kapitlet ges först en kort genomgång av terminologiläran. Sedan redovisas hur praktiskt terminologiarbete går till. Därpå följer en redogörelse över relevant forskning inom termextraktion, som täcker statistiska, lingvistiska och hybridmetoder och automatisk extraktion av termers relationer/definitioner. 2.1 Terminologiläran Ordet terminologi kan användas både för en samling ord och uttryck med särskild betydelse på ett specifikt område, och för läran om sådana terminologier. Det senare kallas mer entydigt terminologilära. Terminologiläran definieras i den internationella standarden ISO :2000 (ISO/IEC, 2000), utfärdad av Internationella standardiseringsorganisationen (ISO), som studiet av hur terminologier struktureras, bildas, utvecklas, används och hanteras. Det är en ganska ung disciplin, född först i början av 1900-talet (TNC och Spri, 1999). Terminologiläran hör liksom lexikografi och översättning till den tillämpade grenen av lingvistiken (Termium, 2006) Begreppsanalys En viktig del av det praktiska terminologiarbetet är att kunna skilja på de tre slags bestämningar referent, term och definition som är knutna till ett begrepp. I begreppsanalysen hänför man begreppet och dess bestämningar till tre världar : verkligheten hyser referenter, tankevärlden rymmer begrepp och den språkliga världen innehåller termer och definitioner (TNC och Spri, 1999). I det följande återges termer kursiverat (term), begrepp med enkla citattecken ( begrepp ), definitioner inom dubbla citattecken ( definition ) och begrepps kännetecken med understrykning (kännetecken) Referent Referenter är entiteter i verkligheten eller i vår gemensamma föreställningsvärld. De kan vara konkreta (som bok, enhörning) eller abstrakta (glädje, ondska) Begrepp Begrepp är kognitiva abstraktioner av någon enskild eller någon samling referenter. De är en unik uppsättning kännetecken som avspeglar egenskaper (TNC och Spri, 1999, s. 9) hos dessa referenter. Till exempel kan be- 9

10 träd lövträd barrträd... björk lönn ek... gran tall lärkträd Figur 2.1: Exempel (från TNC och Spri (1999, s. 10)) på ett generiskt begreppssystem. greppet träd unikt kännetecknas som: vedväxt, högvuxen, icke klättrande, med genomgåe huvudstam (exempel från TNC och Spri (1999)). Genom att ta bort kännetecken får man ett bredare begrepp som avser fler referenter (t.ex. även buskar), och på motsvarande sätt blir begreppet snävare (t.ex. enbart lövträd) om kännetecken läggs till. Ett allmänbegrepp avser en grupp av referenter (t.ex. universitet ); ett individualbegrepp avser någon unik referent (t.ex. Uppsala universitet ). Begrepp inordnas i olika former av begreppssystem. I ett generiskt begreppssystem som figur 2.1 ordnas begreppen hierarkiskt med överbegrepp; underbegrepp, som har något särskiljande kännetecken gentemot överbegreppet; och sidobegrepp som delar samma närmaste överbegrepp. Det finns även partitiva begreppssystem, som tar fasta på sådant som att en rot är en del av ett träd ; och associativa begreppssystem som är icke-hierarkiska och i stället redovisar förhållanden som att en viss produkt ( bensin ) tillverkas utifrån ett visst material ( petroleum ) med en viss metod ( krackning ). Olika typer av begreppssystem kan användas ihop för att förstå begreppsrelationerna inom ett fackområde. Vidare kan ett a fackområde rymma flera begreppssystem av olika omfattning (TNC och Spri, 1999) Term Termer och definitioner hör till den språkliga nivån. Termen är en benämning för något allmänbegrepp som tillhör ett fackområde (Nordterm, 2006) 1. Individualbegrepp har i stället namn. Det finns enordstermer (papper och pappersflygplan) men även flerordstermer (kallpressat papper). Även förkortningar (IT = informationsteknologi) (TNC och Spri, 1999) kan vara termer, liksom vissa symboler (Suonuuti, 2004). En term är alltså inte samma sak som ett ord, vilken insikt var en av anledningarna till att terminologiläran en gång uppstod som en egen lingvistisk disciplin (Pearson, 1998) Definition Definitionen är en språklig beskrivning av begreppet som tar fasta på dess särskiljande kännetecken. För träd kunde det vara vedväxt som är högvuxen och icke klättrande och som har genomgåe huvudstam (Suonuuti, 2004, s. 15). 1 Nordterm är ett samarbetsforum för nordiska terminologiorganisationer. 10

11 en allmän terminologilära. Denna teori var tänkt att gälla alla fackområden och fackspråk. Han var den första som placerade begreppet i centrum för den terminologiska analysen. relationerna mellan fyra centrala begrepp, nämligen referent, begrepp, term och definition vilket kan åskådliggöras med hjälp av nedanståe tetraedermodell. Begrepp tree arbre träd Termer Referenter Baum Definition högvuxen, icke klättrande vedväxt med genomgåe huvudstam Figur 2.2: Begreppstetraedern (från TNC och Spri (1999, s. 7)). Spri rapport Innehållsdefinitioner (eller intensionella definitioner), som den ovanståe, redovisar alltså kännetecken. Det finns också omfångsdefinitioner (eller extensionella definitioner) som i stället består av en uttömmande uppräkning av alla underordnade begrepp eller alla referenter som omfattas. En omfångsdefinition av vecka vore måndag, tisdag, onsdag, torsdag, fredag, lördag och söndag. Omfångsdefinitionens status är ifrågasatt, och vissa terminologer menar att den är en ytterligare slags begreppsbestämning utöver referent, term och definition (TNC och Spri, 1999) Begreppstetraedern Relationerna mellan referent, begrepp, term och definition brukar åskådliggöras med den så kallade begreppstetraedern (figur 2.2), som bygger på Ogden och Richards (1923) semiotiska triangel men inför ett ytterligare hörn för definitionen (TNC och Spri, 1999). I begreppstetraedern går de heldragna linjerna just till begreppet. Detta avser visa hur det alltid finns ett begrepp, även om något annat av tetraederns hörn saknas: det kan finnas begrepp som vi saknar termer för, begrepp som vi saknar definitioner för och begrepp som saknar referenter. Ingen av dessa kan dock finnas utan vidhörande begrepp. Begreppet är utgångspunkten för allt terminologiarbete (TNC och Spri, 1999, s. 9). 2.2 Terminologiarbete Terminologiarbete bygger på terminologiläran och skildras av Nordterm (2006) som att man på ett systematiskt sätt samlar, analyserar, beskriver och presenterar ett visst fackområdes begrepp och deras benämningar. Ändamålet kan vara deskriptivt eller preskriptivt (Nuopponen, 2003). Det delmoment som om- 11

12 fattar registrering och presentation av [begrepp, termer, namn och symboler] (Nordterm, 2006) benämns terminografi. Praktiskt terminologiarbete sker ofta i projektform och av arbetsgrupper beståe av både terminologer och experter på det berörda fackområdet. Slutprodukten är en terminologi som presenteras i form av en ordlista eller en termdatabas (också kallad termbank). Den framarbetade terminologin tjänar bland annat till att effektivisera kommunikation mellan experter och med allmänheten genom entydiga och väldefinierade termer (TNC och Spri, 1999) Arbetsgång Här redovisas i korthet de delmoment som brukar ingå i ett terminologiskt projekt för att utarbeta en terminologi. Andra typer av terminologiarbete kan ha delvis andra moment. De principer som redovisas bygger på ett antal beprövade internationella standarder, utfärdade av ISO (Suonuuti, 2004) Avgränsning En förutsättning för själva arbetet är att det terminologiska området avgränsats. Målgrupp och användningsområde för terminologin utreds och själva fackområdet inventeras (TNC och Spri, 1999). Om området visar sig innehålla en stor mängd begrepp kan det vara lämpligt att dela upp arbetet i delprojekt. En tidplan upprättas, som avgränsar arbetet i tid och anger varje deltagares ansvarsområde (Suonuuti, 2004) Källmaterial Begreppssystem upprättas i praktiken genom att man söker termer i en korpus av fackspråkligt material. En korpus beskrivs av McEnery och Wilson (2001, s. 32) som a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration men med reservationen att detta är en prototypisk definition som medger undantag: det finns öppna korpora som växer i storlek och korpora i tryckt form. Efter att det terminologiska området avgränsats är nästa steg att fastställa vilket material som ska ingå i denna korpus. Vissa krav bör ställas på det källmaterial som väljs ut, till exempel att det är representativt för området med hänsyn till de begränsningar som gjordes i första steget och att det inte är föråldrat (Cabré, 1999). Samtidigt kan äldre texter definiera sådant som i nyare texter tas för självklart, så även de kan ha ett värde (Bowker och Pearson, 2002) Excerpering Termer söks sedan i korpusen, manuellt eller (halv)automatiskt med hjälp av datorprogram. Termen (automatisk) termextraktion brukar användas om det automatiska och (manuell) excerpering om det manuella arbetet 2. Inte bara ter- 2 Det finns gott om belägg för denna indelning, t.ex. projects/kbn/dokumenter/tkechapter_final.pdf, men kontrasterande definitioner av termerna verkar inte stå att finna. 12

13 merna är av intresse, utan också de sammanhang i vilka de används liksom definitioner och semantiska relationer till andra begrepp. Termer, kontext och andra intressanta data protokollförs (Cabré, 1999) Upprättande av begreppssystem Utifrån den kunskap man nått genom excerperingen/extraktionen upprättas begreppssystem. Själva begreppens omfång och innehåll (TNC och Spri, 1999, s. 16) utreds och deras kännetecken och relationer identifieras. Begreppssystemen kan föregås av provisoriska begreppsfält begrepp grupperade tematiskt. Systemen revideras inte sällan efter det att definitionerna skrivits och man nått ny kunskap (TNC och Spri, 1999) Definitionsskrivning Definitionens plats i begreppstetraedern redovisades kort i sektion ovan. För att en sådan definition ska vara terminologiskt godtagbar ska den möta ett flertal krav. En definition i terminologisk mening är inte alltid detsamma som en ordförklaring i en allmänspråklig ordbok. Ordförklaringen är en lättbegriplig förklaring av ett förväntat okänt ord, medan (innehålls)definitionen syftar till att avgränsa och placera ett begrepp i förhållande till övriga begrepp i samma begreppssystem (TNC och Spri, 1999). Som exempel (från TNC och Spri (1999, s. 12f)) kan man se till hur småhus definieras (eller förklaras) i en allmänspråklig ordbok och en terminologisk ordlista: småhus (mindre) enfamiljshus (ur: Svensk ordbok) småhus bostadshus med högst två bostadslägenheter (ur: TNC 95 Plan- och byggtermer) Den allmänspråkliga ordförklaringen använder sig av ordet mindre, vilket knappast gränsar av begreppssystemet på ett precist sätt. I den terminologiska ordlistan definieras termen inom ramarna för det generiska begreppssystemet, genom att utgå från termen (bostadshus) för närmast överordnade begrepp och ange de ytterligare kännetecken (med högst två bostadslägenheter) som är särskiljande. Det bör dock betonas att en allmänspråklig ordbok har andra ambitioner än den terminologiska ordlistan (Pearson, 1998), och att ovanståe kan vara fullt tillfredsställande som ordförklaring, om än inte som begreppsdefinition. Definitioner ska bara innehålla kännetecken som särskiljer mot andra begrepp (Suonuuti, 2004). Att inkludera med tak i definitionen ovan hade varit felaktigt, då detta kännetecknar alla bostadshus och dessutom alla hus 3. En definition ska vara kortfattad. Information som inte syftar till att placera begreppet inom dess begreppssystem läggs i stället i en anmärkning. Sådant 3 Det existerar givetvis hus utan tak, men antagligen inte som begrepp i TNC 95 Plan- och byggtermer. 13

14 kan vara viktiga men inte särskiljande kännetecken eller en uppräkning av referenter (Suonuuti, 2004). Enligt den så kallade utbytesprincipen ska definitioner i princip kunna ersätta termen i löpande text eller i andra definitioner (Suonuuti, 2004). Om man sätter in definitionen för träd i den för städsegrönt träd (från Suonuuti (2004)) kunde man till exempel få vedväxt som är högvuxen och icke klättrande och som har genomgåe huvudstam [och] som behåller sina blad året om. En textdefinition får gärna förtydligas med illustrationer, men kan ej ersättas av dem (Suonuuti, 2004). Sådant som ska undvikas vid definitionsskrivning är till exempel cirkeldefinitioner (inom samma definition eller mellan flera definitioner), för vida definitioner (med för få kännetecken) och för snäva definitioner (med för många kännetecken). En sorts för snäv definition är den som knyts till ett för begränsat ämnesområde till exempel (från Suonuuti (2004, s. 27)) fertilitet träds förmåga att åstadkomma avkomma när det vore mer lämpligt med fertilitet förmåga att åstadkomma avkomma Vidare ska termer som används i definitionen (till exempel avkomma ovan) inte förklaras där, utan i en egen termpost. Negativa definitioner att säga vad något inte är ska som regel undvikas, men kan vara lämpligt för vissa begrepp, som flintskallig ( som inte har hår på huvudet ) (Suonuuti, 2004) Termval När terminologen väljer termer till begrepp finns det ett antal krav som bör mötas. Termen bör vara precis (datorskärm och inte skärm); entydig inom ämnesområdet (inte homonym eller polysem som terminologi); accepterad av fackmän, ibland rentav internationellt; passa in i svenskan (till exempel vad gäller stavning, böjning och uttal); ej missvisande (kärnenergi, inte atomenergi, då det rör klyvning av just kärnan); språkekonomisk (kort); och genomsynlig (lätt att förstå) (TNC och Spri, 1999). Den bör också helst spegla några av begreppets kännetecken (Suonuuti, 2004, s. 30). Ibland hamnar kraven i konflikt med varandra en lång termkandidat är mindre språkekonomisk men ofta mer genomsynlig än en kort och kan kanske inte alla tillgodoses (TNC och Spri, 1999). Ibland finns flera etablerade termer. I den situationen bör en term rekommeras och övriga införas som synonymer (TNC och Spri, 1999). För både termer och definitioner finns det också stil- och formkrav, som att de ska börja på liten bokstav och ha källhänvisning om källan är normativ (Suonuuti, 2004). 14

15 termpostnummer BTL - UTD svensk term term svensk definition språkligt uttryck för ett begrepp som tillhör ett fackområde svensk källa Terminologins terminologi s.20.-(nordterm 2) engelsk term term engelsk definition a word or phrase used to denote a concept engelsk källa Un.Term.Doc. fransk term terme fransk definition symbole conventionnel d une notion qui consiste en sons articulés ou en leur représentation graphique(= en lettres).un terme est un mot ou un groupe de mots(= locution) fransk källa AFNOR Figur 2.3: Post från Europeiska kommissionens flerspråkiga termbank EuroDicAutom ( Representation och publicering Den terminologi som produceras presenteras vanligen i form av terminologiska ordlistor, termbanker eller terminologiavsnitt i standarder (TNC och Spri, 1999). Termbanker är terminologiska ordlistor som lagras elektroniskt och gentemot vilka användare kan göra sökfrågor (Sager, 1990; Cabré, 1999). Vissa termbanker är fritt tillgängliga över webben; andra kan mot betalning erhållas på CD-ROM (Bowker, 2003). En terminologisk ordlista och en termbank består av flera termposter. Varje termpost omfattar ett begrepp, då det ju är begreppet som är det centrala (se sektion ). Därtill ska det finnas åtminstone ett termpostnummer, en rekommerad term och en definition (Suonuuti, 2004). Ytterligare information som kan förekomma är synonymer, anmärkningar, hänvisningar till relaterade begrepp, källa för informationen och ekvivalenter i andra språk (TNC och Spri, 1999). Ett exempel på hur en post ur en termbank kan presenteras ges i figur 2.3. Termposterna kan vara ordnade systematiskt (efter begreppssystem), alfabetiskt eller blandat (Suonuuti, 2004). I en termbank kan posterna naturligtvis sorteras och sökas på olika sätt. Det finns olika standarder för hur termposterna representeras internt. Olika dataformat kan ha olika styrkor och svagheter, och valet av format kan främja eller hindra datautbyte och samarbete, till exempel gemensam mjukvaruutveckling, mellan aktörer (Hjulstad och Eckmann, 1999). 2.3 Termextraktion Terminografer förlitar sig sedan slutet på 1990-talet allt mer på elektroniska korpora i en tr som följer den på det lexikografiska området (Meyer m.fl., 1999). 15

16 Som nämnts i sektion ovan används termen termextraktion främst för automatisk sökning av termer i en korpus. Det delmoment som syftar till enbart själva identifieringen av termer kallas termidentifiering (Termium, 2006). Utdata från termextraktionssystem är normalt kandidattermer, inklusive kontext och eventuellt information om frekvens med mera för att underlätta manuell efterbehandling (Cabré m.fl., 2001). Termextraktionssystem kan vara enspråkiga eller flerspråkiga. Flerspråkiga system får förutom en källtext även dess översättningar som indata, och extraherar förutom termer även deras ekvivalenter på andra språk (Bowker, 2003). För automatisk termextraktion gäller ännu att utdata snarast är att betrakta som just termkandidater de behöver verifieras av en människa. Därför talar vissa hellre om datorstödd eller halvautomatisk termextraktion (Bowker, 2003). Cabré m.fl. (2001) räknar upp de fyra huvudproblem som de menar att automatisk termextraktion har att lösa: (1) att identifiera var flerordstermer börjar och slutar; (2) att avgöra om en fras är en flerordsterm eller inte; (3) att identifiera om en lexikal enhet är en term i en viss facktext; och (4) att bedöma hur väl en term platsar i den aktuella terminologin. I deras genomgång av tolv termextraktionssystem redovisar Cabré m.fl. (2001) precisionssiffror på %, och täckningssiffror på %. Dessa siffror är från systemutvecklarnas egna mycket olika utvärderingar och är därför knappast direkt jämförbara med varandra. Andra, som Pasanen (2005), menar att termextraktionssystem normalt når en precision på %. Automatisk termextraktion överlappar med automatisk indexering inom forskningsområdet informationssökning (information retrieval, IR) vad gäller de metoder som används. Så kallade indextermer är oftast termer också i terminologisk mening. Det omvända gäller inte alltid ett termextraktionsprogram ska utvinna alla termer, medan indextermer är just de lexikala enheter som beskriver dokumentets innehåll (Cabré m.fl., 2001). Därtill hör termer till ett fackområde, medan indextermer hänförs till specifika dokument och måste vara representativa just för dessa. I praktiken kan samma algoritmer dock ofta användas för att extrahera både indextermer och facktermer (Witschel, 2005). Automatiska termextraktionssystem har hittills använt sig av statistiska och lingvistiska metoder, inte sällan förenade i hybridsystem. Några metoder redovisas i nästkommande avsnitt. Metoder för termextraktion, såväl statistiska som lingvistiska, kan underindelas i sådana (bl.a. kallade ogena) som utgår från termernas egna egenskaper och sådana (bl.a. kallade exogena) som tar fasta på termernas sammanhang i en korpus (Maynard och Ananiadou, 1999; Cabré m.fl., 2001; Kageura m.fl., 2004). På senare år har det bedrivits allt mer forskning i att inte bara utvinna termer på automatisk väg, utan även deras semantiska relationer och definitioner. Detta redovisas i sektion som avslutar kapitlet. Zielinski och Ramírez (2005) nämner MultiTerm Extract (från Trados), SDL PhraseFinder, Xerox Termfinder, Terminology Wizard (från Synthema) och TerminologyExtractor (från Chamblon) som några av det fåtal termextraktionssystem som dominerar marknaden idag. Av dessa sex system är hälften rent statistiska och hälften hybrider. 16

17 2.3.1 Statistiska metoder Statistiska metoder för termextraktion tar fasta på de statistiska egenskaper som skiljer termer från ord i löpande text. Det vanligaste är att fokusera på flerordstermer och titta på associationsmått för de ingåe orden (Alegria m.fl., 2004). Sådana associationsmått bygger ofta (Cabré m.fl., 2001) på det informationsteoretiska måttet ömsesidig information (eng. mutual information). Ömsesidig information kan uttryckas I(x, y) = log 2 P(x, y) P(x)P(y) (1) (Church och Hanks, 1989, s. 77) och innebär enkelt uttryckt att man jämför sannolikheten att två händelser (exempelvis ordförekomster) inträffar tillsammans, med sannolikheten för att de inträffar oberoe av varandra. Om båda sannolikheterna är ungefär lika stora blir kvoten runt 1 och logaritmen (och informationsvärdet) runt 0, medan en större förenad sannolikhet om de samförekommer oftare än vad slumpen ger innebär ett högre informationsvärde. Värdet kan bli negativt om orden står i komplementär distribution, det vill säga om de aldrig samförekommer. Church och Hanks (1989) beräknar vad de kallar en associationskvot mellan ord utifrån denna formel. P(x) är antalet förekomster av ordet x normaliserat på korpusens storlek. P(x, y) ser till hur många gånger orden x och y kommer i den ordningen, återigen normaliserat på korpusstorlek. Ordfönstrets storlek är en parameter man kan titta på enbart ord i direkt följd, eller tillåta att de står ett par ord isär, beroe på hur täta relationer man söker. Associationskvoten skiljer sig från ömsesidig information i det att den inbördes ordföljden mellan x och y spelar roll, det vill säga att P(x, y) = P(y, x) inte nödvändigtvis gäller. Ahmad m.fl. (1992) identifierar termer genom att jämföra den relativa frekvensen för någon termkandidat i en fackspråklig korpus med dess relativa frekvens i en välbalanserad allmänspråklig korpus, en så kallad referenskorpus. En kandidat som är signifikant mer frekvent i den fackspråkliga korpusen än i referenskorpusen kan misstänkas vara en term. Detta mått kallas weirdness. I Gillam m.fl. (2005) används additiv utjämning (eng. smoothing) eftersom man annars får en oändlig weirdness när en term helt saknas i referenskorpusen. Formeln (från Gillam m.fl. (2005, s. 6)) blir då τ(w) = N GL f SL (1 + f GL )N SL (2) där w är ett typord, f SL är ordets frekvens i en fackspråklig ( specialist language ) korpus, f GL är ordets frekvens i en allmänspråklig ( general language ) korpus, N SL är det totala antalet ord i den domänspecifika korpusen och N GL är det totala antalet ord i den allmänspråkliga korpusen. Hur formeln tillämpas på flerordstermer framgår inte. Det finns också statistiska metoder som tittar på ordens inre struktur. Cohen (1995) hittar indextermer genom att identifiera tecken-n-gram som är högfrekventa i en domänspecifik korpus jämfört med en referenskorpus. Ord eller ordgrupperingar poängsätts efter hur många sådana n-gram de innehåller, 17

18 och de som når över något gränsvärde accepteras som termer. Detta är (med ett exempel från Witschel (2005, s. 367)) särskilt effektivt inom domäner där termer ofta är på något främmande språk som det grekiska suffixet -itis (med betydelsen inflammation, t.ex. i eng. meningitis) inom medicin Lingvistiska metoder Termextraktion grundad i lingvistisk kunskap är språkspecifik i högre grad än statistisk extraktion och kräver ofta omfattande språkliga resurser; å andra sidan ger den ofta bättre avgränsade termer och färre repeterade böjningsformer än statistiska metoder (Zielinski och Ramírez, 2005). I 2.3 ovan nämndes hur man delar in termextraktionsmetoder i termbaserade och kontextbaserade. Maynard och Ananiadou (1999) kallar detta intrinsisk respektive extrinsisk information, och menar att informationen för lingvistiska metoder i båda fallen terar vara syntaktisk, men i det intrinsiska/ogena fallet även morfologisk. Det finns också ett fåtal metoder som bygger på semantisk information Syntax Den typiska lingvistiska metoden för termextraktion är att plocka ut sådana ordföljder som motsvarar vissa termtypiska ordklassmönster (Bowker, 2003). I svenskan är till exempel ADJEKTIV-SUBSTANTIV ett vanligt mönster för termer (som kallpressat papper), medan PREPOSITION-ARTIKEL knappast är det. Justeson och Katz (1995) (se Cabré m.fl. (2001)) står för ett tidigt exempel på sådan lingvistisk filtrering. Källtexten ordklasstaggas, varpå de kollokationer som inte motsvarar en uppsättning accepterade taggmönster filtreras ut. Dessutom krävs att kandidattermen har en viss minimifrekvens. För nominalfraser används det reguljära uttrycket ((A N) + ((A N) (NP)?)(A N) )N (3) där N står för substantiv, A för adjektiv och P för preposition. Som exempel accepteras engelska term extraction (SUBSTANTIV-SUBSTANTIV) medan of the (PREPOSITION-ARTIKEL) sorteras bort. Taggmönstren är avsedda att ge god precision, ibland på bekostnad av täckningen. Arppe (1995) hävdar att så mycket som % av termer är nominalfraser. Att så gott som uteslutande fokusera på ordklassmönster som motsvarar nominalfraser, vilket enligt Cabré m.fl. (2001) varit den genomgåe tren, kan därför anses motiverat. Ett lingvistiskt termextraktionssystem med ett lite annorlunda tillvägagångssätt är LEXTER (Bourigault, 1995) (se Cabré m.fl. (2001)). Maximalt långa nominalfraser identifieras och delas upp vid de ordklassmönster (i franskan exempelvis PREPOSITION-ARTIKEL, sur le ) som normalt inte ingår i en term. Systemet försöker hantera undantag, det vill säga de fall där en ordföljd som motsvarar ett sådant mönster ändå ingår i en term, genom att titta på hur produktiv ordföljden är när den följer på det aktuella substantivet. Enbart icke-produktiva ordföljder blir termgränser. 18

19 Morfologi Justeson och Katz (1995) (se Cabré m.fl. (2001)) visade att medellängden för en nominal term i engelska är 1,91 ord. Detta kanske kan motivera att man i engelskspråkig termextraktion, såväl statistisk som lingvistisk, oftast fokuserar på flerordstermer (Alegria m.fl., 2004). I svenska används dock ofta sammansättningar där till exempel franska eller engelska skulle ha en flerordsterm engelska web site blir svenska webbplats. Bland publicerad forskning om termextraktion hittar man mest metoder som fokuserar på flerordstermer; fokus är sällan på enordstermer och än mer sällan på sammansättningar. Ett undantag, utöver Cohen (1995) i ovan, är Heid m.fl. (1996) som extraherar termer ur tysk facktext. För att identifiera enordstermer görs ett antagande att de kännetecknas av vissa allmäntyska prefix (exempelvis motsvarande de reguljära uttrycken ab.+, ultra.+) och/eller suffix (.+artig,.+widrig). För den aktuella domänen, bilmekanik, identifierades dessutom vissa frekventa ordled (som.*motor.*). För att vara en kandidatterm ska ett ord innehålla minst ett sådant prefix, suffix eller ordled. I ett senare arbete generaliserar Heid (1999) processen. Statistiskt identifierade termkandidater analyseras morfologiskt. Lexikala (men inte grammatiska) morfem 4 som frekvent förekommer i termkandidater antas vara domänspecifika. Sådana domänspecifika morfem används sedan ihop med reguljära uttryck för morfologisk termextraktion Semantik Det förekommer också att semantisk information används, till exempel av Maynard och Ananiadou (1999) som med hjälp av en fackspråklig tesaurus beräknar semantiskt avstånd mellan någon given kandidatterm och andra kandidattermer i dess kontext. En kandidat som förekommer ihop med många kandidater som är semantiskt lika, rankas högre än om så inte varit fallet. Semantiken används också för termdisambiguering. Cabré m.fl. (2001) gjorde bedömningen att semantisk information måste tas till vara i högre grad för fortsatt förbättrade termextraktionssystem. Sådan information används dock fortfarande inte i de flesta kommersiella system (Zielinski och Ramírez, 2005) Hybridsystem Rent statistiska system terar undergenerera, då de t.ex. missar lågfrekventa termer; rent lingvistiska terar övergenerera, då de mönster som används kan vara för generella. Hybridsystem, som kombinerar metoder av båda slagen, ger bättre resultat (Zielinski och Ramírez, 2005). Cabré m.fl. (2001) menar att hybridlösningar är avgörande för den fortsatta utvecklingen av termextraktion. Enligt Maynard och Ananiadou (1999) är många hybridsystem till största delen statistiska, och använder lingvistisk information enbart för att filtrera fram de kandidater som är syntaktiskt rimliga. 4 Lexikala morfem är ordled med egen betydelse. Grammatiska morfem är funktionsord, böjningar och avledningar som bara har betydelse ihop med lexikala morfem. 19

20 Man kan vända på ordningen och tillämpa statistisk filtrering av lingvistiskt extraherade termkandidater, för att skilja kollokationer från slumpmässiga samförekomster (Witschel, 2005). Den inbördes ordning som lingvistik och statistik tillämpas i har viss betydelse. I det kanske första hybridsystemet för termextraktion valde Daille (1996) att tillämpa statistiken sist, då storlekarna på dess ordfönster därmed blev givna av den lingvistiska filtreringen, i stället för att sättas till mer godtyckliga värden som kunde vara för stora eller små i vissa fall. Gillam m.fl. (2005) menar att avgränsningen mellan statistiska och lingvistiska metoder är artificiell, att de är beroe av varandra och representerar olika sidor av hur information uttrycks i språk Extraktion av relationer och definitioner På senare år har fokus inom automatisk terminologihantering övergått från automatisk identifiering/extraktion av termer till att bland annat identifiera relationer mellan termer (Kageura m.fl., 2004; Patry och Langlais, 2005). Zielinski och Ramírez (2005) betraktar detta som lingvistisk termextraktion Informationsmönster En tidig studie av halvautomatisk extraktion av semantiska relationer var Hearst (1992). Lexiko-syntaktiska mönster som tyder på hyponymrelationer identifierades. Ett sådant mönster kan vara NP {, NP}* {,} or other NP som svarar mot till exempel Bruises, wounds, broken bones or other injuries... och då ger upphov till relationer som hyponym("bruise", "injury"), hyponym("wound", "injury") och hyponym("broken bone", "injury") (exempel från Hearst (1992, s. 3f)). Sedan tillämpas en iterativ process för att identifiera nya mönster: givet kända ord med någon relation ( bruise är hyponym till injury ) görs sökningar i texten på samförekomster av dessa ord. Kontexten för sådana samförekomster kan avslöja ytterligare mönster för samma relation. Dessa kan ge ytterligare termer, som ger ytterligare relationer, och så vidare. Liknande metoder har använts för termers relationer och definitioner. Conceptual sampling (Meyer m.fl., 1999; Meyer, 2001) handlar om att för en term i en korpus välja ut just de konkordansposter som illustrerar intressanta begreppsrelationer. Dessa poster kallas knowledge-rich contexts (KRCs). Det saknas en etablerad svensk term, men informationsrika kontexter 5 kanske kan användas. Meyer m.fl. (1999) ser tre praktiska användningsområden: 1. KRCs av hög kvalitet kan användas direkt som definitioner; 2. KRCs av lägre kvalitet kan vara en utgångspunkt för definitionsskrivande; 3. alla KRCs hjälper terminologen i sin begreppsanalys i övrigt. Conceptual sampling kan göras halvautomatiskt utifrån antagandet att a given conceptual relation will manifest itself in certain predictable, recurring patterns in text, which we term knowledge patterns (Meyer m.fl., 1999, s. 257). En möjlig svensk översättning är informationsmönster. Meyer m.fl. 5 Som direktöversättning från tyska informationsreicher Kontexte i examensarbetet

21 (1999, s. 257) ger följande exempel, bland andra, för termen amniocentesis och relationen HYPERONYMI, med informationsmönstren i fetstil: 1. Amniocentesis is the most commonly used test for prenatal diagnosis of genetic diseases or disorders. 2. Amniocentesis is a valuable diagnostic test available to help diagnose problems before the birth of a child. 3. It can be helpful to women considering whether to have more invasive tests such as amniocentesis. Informationsmönster kan vara lexikala mönster som i exemplen ovan; grammatiska mönster, som att engelska SUBSTANTIV-VERB för de flesta verb skildrar relationen FUNKTION; och paralingvistiska mönster, som textstruktur eller interpunktion placenta previa (a placenta abnormally located in the lower part of the uterus) manifesterar HYPERONYMI. Vissa informationsmönster (som is a ovan) är domänoberoe, medan andra (som i Maroon is a shade of red ) är domänspecifika (exempel från Meyer m.fl. (1999, s. 258ff)). En svårighet är att mönster kan vara polysema consist* of kan uttrycka såväl MERONYMI ( Breast milk consists of sugars, proteins and fats ) som HYPERONYMI ( Real-time ultrasound consists of a process whereby... ) (exempel från Meyer m.fl. (1999, s. 260f)). Två ytterligare problem med metoden är att informationsmönster inte rår på sådan information som måste nås genom slutledning eller kunskap om världen, och att sökningar utgåe från termer förstås inte rår på anaforer (Meyer m.fl., 1999). Å andra sidan menar Witschel (2005) att just termer terar att förekomma upprepade gånger utan variation i texter, vilket kanske mildrar anaforiproblemet. Meyer m.fl. (1999) menar att utvecklingen av informationsmönster i ett verktyg för conceptual sampling är en iterativ process där utdata kan ge upphov till nya mönster, eller begränsningar av tidigare mönster, i en strävan att balansera under- och övergenerering. Detta förefaller besläktat med den iterativa processen som presenteras i Hearst (1992). Idén om informationsmönster, med mindre skillnader, har med andra namn kallats till exempel knowledge probes (Ahmad och Fulford, 1992) (se Meyer (2001)) och defining expositives (Pearson, 1998) System DEFINDER och TerminoWeb är två system som tillämpar idén om informationsrika kontexter och informationsmönster. DEFINDER (Klavans och Muresan, 2000; Muresan och Klavans, 2002) extraherar term/definition-par från medicinsk text. Systemet består av en modul för mönstermatchning, en för djupare syntaxanalys och en mindre filtreringsmodul. Den första huvudmodulen använder en reguljär grammatik ihop med lexikala informationsmönster kallade cue-phrases (som is the term for, is called ) och paralingvistiska informationsmönster som parentetiska inskott. Därtill används en ordklasstaggare och en chunker för att identifiera enkla nominalfraser (huvudord och framförställda modifierare). Filtreringsmodulen sorterar sedan bort förklaringar, uppräkningar och liknande övergenereringar som informationsmönstren gett upphov till. 21

22 Bank fraud Bank, fraud, corruption, world, money, project, world bank, fraud corruption, contract, procurement, loan, financial, banks, identity, information, account, staff, fraudulent, credit, projects, theft, funds, borrower, business, number, card, investment, management, public, accounts Figure 4: TerminoWeb: term extraction and knowledge-rich context search panel Figur 2.4: Gränssnittet i TerminoWeb. Från Barrière och Agbago (2006, s. 9). I den andra huvudmodulen utförs en depensanalys, vilken kan avslöja lingvistiska fenomen som apposition, relativsatser och anafori. Därmed kan systemet identifiera definitioner som kännetecknas av mer komplexa mönster än vad ytparsningen rår på (jämför med anaforiproblemet som Meyer m.fl. (1999) påpekar ovan). (Muresan och Klavans, 2002) redovisar en precision på 87,0 % och en täckning på 75,5 % för DEFINDER jämfört med mänsklig extraktion. Barrière och Agbago (2006) beskriver TerminoWeb, en arbetsmiljö för att halvautomatiskt hitta informationsrika dokument och utvinna termer och informationsrika kontexter ur dem. Arbetet är uttryckligen inspirerat av Meyer (2001). Gränssnittet visas i figur 2.4. Dokument hämtas från webben. De dokument som är intressanta består av löpande text med en hög andel informationsmönster (är informationsrika) och en hög andel termer på området (är domänspecifika). Systemet har som ingångsdata ett antal informationsmönster och en startuppsättning termer. Denna uppsättning termer utökas iterativt dokument ger termer som ger fler dokument, med fler termer. Själva termextraktionen är statistisk, baserad på dels rå frekvens, dels weirdness. 22

23 3 Datainsamling Extraktionen av relevanta dokument förutsätter en föreskriftskorpus att extrahera ur. Ingen sådan korpus finns tillgänglig, varför ett datainsamlingssteg är nödvändigt. 3.1 Data Myndigheter är offentliga institutioner som utför statliga arbetsuppgifter. Exempel på myndigheter är Skolverket och Länsstyrelsen i Uppsala län. Föreskrifter är juridiskt bindande regler som en myndighet utfärdar på sitt område tillsammans med riksdagens lagar och regeringens förordningar ryms de under termen författningar. Detta arbete utgår från den lista över myndigheters författningssamlingar på webben som redovisas på myndigheten Vervas (Verket för förvaltningsutveckling) webbplats lagrummet.se Urval En del ställningstaganden måste göras vid datainsamlingen vad gäller de myndigheter och slags föreskrifter som ska ingå Myndigheter Vissa författningssamlingar på Vervas lista ingår inte i det här arbetet: totalt används 62 av 89 myndigheters författningssamlingar (68 %). Länsstyrelsernas föreskrifter föreföll vid utvecklingen av nedladdningsregler nästan uteslutande vara stora antal trafikregleringar och liknande rutinären som är fattiga på termdefinitioner. 21 av 89 myndigheter på listan (24 %) är länsstyrelser. Att utesluta dessa föreskrifter från arbetet sparar tid och innebär förhoppningsvis en högre koncentration intressanta dokument i insamlad data. En nackdel är naturligtvis att det inte kan uteslutas att något län ändå ger ut någon föreskrift med terminologiskt intressant information. Bland återståe myndigheters webbplatser fanns en handfull som använde JavaScript-kod för sina menyer eller nedladdningslänkar, vilket gör dem svåra att navigera programmatiskt. Därför har dessa myndigheter fått uteslutas. 1 Hela listan av författningssamlingar återfinns på rattsinformation/forfattningar/myndigheter/. 23

24 Föreskrifter och format Med kvarvarande myndigheter uppstår frågor om vilka dokument som är intressanta att ladda ner. Vilka dataformat ska accepteras? Vilket ska väljas om samma föreskrift erbjuds i flera format? Om både ändringsföreskrifter och konsoliderade föreskrifter 2 erbjuds, vilka ska då tas med? Är bilagor relevanta? Ska upphävda föreskrifter omfattas? I regelskrivandet för det här arbetet föredras konsoliderad form framför ändringsföreskrifter. Det är emellertid ofta svårt att skriva regler som lyckas skilja olika slags föreskrifter åt. I praktiken torde det inte vara något problem om samma föreskrift kommer med både konsoliderad och i delar, annat än om det ger konsumenten av systemets utdata ett falskt intryck av hög frekvens för föreskriftens termdefinitioner. Reglerna har skrivits med avsikten att bara spara ner gällande föreskrifter, men på samma sätt som med ändringsföreskrifterna är de ibland svåra att skilja ut. Antagandet här är att definitionerna i icke gällande föreskrifter kan ha blivit inaktuella. Samtidigt nämndes i sektion hur äldre texter kan definiera sådant som i nyare texter tas för självklart och att de därför kan vara av värde. Bilagor laddas inte när där det är möjligt att undvika. De kan förvisso ha definitioner, men de är inte formbundna på samma sätt som föreskrifterna och antas därför inte kunna extraheras med samma regler. Föreskrifter tillhandahålls nästan uteslutande i något eller båda av formaten HTML och PDF. Det fåtal föreskrifter som enbart tillhandahålls i Microsofts Word-format har uteslutits ur detta arbete. HTML är det XML-liknande format som webbsidor normalt representeras i. Formatet innebär att innehållets struktur markeras ut: stycken, rubriker, emfas och så vidare. Hur denna strukturerade data sedan presenteras i en webbläsare att stycken separareras av mellanrum eller att rubriker har större text är en separat fråga. HTML-dokument är textfiler som kan läsas i en vanlig textredigerare. I kontrast till detta är PDF ett presentationsformat: PDF-dokument ser i princip likadana ut i alla sammanhang. Dokument representeras som element med koordinater och visuella attribut, som fet stil. Varje rad eller rentav tecken i ett textstycke kan vara ett separat sådant element. Det finns stöd för att märka upp PDF-dokument strukturellt, så kallad taggad PDF, men det verkar inte vanligt. Vid några stickprov bland de nedladdade föreskrifterna hittades inga sådana. PDF-dokument är lagrade binärt och kan inte läsas eller skrivas utan särskild programvara. Strukturellt uppmärkta dokument är tacksamt när man programmatiskt, som i detta arbete, vill kunna skilja ut rubriker eller helt enkelt kunna läsa flerkolumnig text i rätt ordning. Med en PDF utan strukturell information måste sådant induceras från själva textinnehållet eller textens visuella attribut. I praktiken är det inte ovanligt att HTML-dokument delvis författas utifrån utsee i stället för struktur till exempel att det som borde markerats som rubrik i stället markeras som ett stycke och fetstilt. Detta blir ofta resultatet när användaren inte skriver HTML direkt utan låter det genereras av ett program, till exempel en ordbehandlare. Även i dessa fall är HTML att föredra över PDF 2 En grundföreskrift ändras genom ändringsföreskrifter, till exempel ny lydelse för paragraf 2 är.... Konsoliderade föreskrifter har alla ändringar införda. 24

25 för det här arbetet: det är mycket lättare att arbeta med ett textbaserat format än ett binärt, och textflödet är ofta bättre texten är oftare lagrad i samma följd som den visas på skärmen. Av dessa skäl laddas föreskrifter i första hand ner i HTML-format, om flera format erbjuds. För HTML-dokument är det enbart HTML-koden som sparas ner: bilder kan tänkas komplettera termdefinitioner i något enstaka fall, men att ladda ner dem bedöms innebära väldigt mycket arbete till liten praktisk nytta. 3.2 Insamling Ett program utvecklades för att enligt en uppsättning regler kunna navigera webbplatser och spara ner vissa filer. Sådana regler utvecklades för att ladda ner myndigheters föreskrifter. Hela regeluppsättningen redovisas i bilaga A.1. Reglerna skrivs i ett så kallat domänspecifikt språk (DSS; eng. domainspecific language, DSL) implementerat i programspråket Ruby 3. Detta innebär att regler kan skrivas i ett ändamålsanpassat språk men vid behov utnyttja ett Turingekvivalent språk (Ruby) med ett rikt kodbibliotek. Reglerna är skilda från koden som tolkar dem; programmet som samlar ihop föreskrifter kan enkelt användas med andra regler för andra insamlingsuppgifter. En enkel nedladdningsregel kan till exempel lyda rule 'Försvarsmaktens författningssamling (FFS)' do visit ' follow :text => /^#{RE_FFID}/ do download :extension => :pdf Angiven webbadress uppsöks, varpå alla länkar vars text matchar angivet reguljärt uttryck följs. På dessa sidor laddas alla filer med ändelsen.pdf ner. Konstanterna RE_YEAR och RE_FFID har definierats i regelfilen med vanlig Rubykod och innehåller ofta använda reguljära uttryck som motsvarar årtal ( 2000 ) respektive författningsnummer ( 1999:1395 ). Mer komplexa nedladdningsregler kan göra sådant som att fylla i och skicka sökformulär, manipulera hela sidan element för element för att ta bort länkar till upphävda föreskrifter före nedladdningen, eller ladda ner en ändringsföreskrift enbart om den inte länkar till en konsoliderad version. Eftersom data som ska samlas in alltid är ändligt uppräknelig skulle det naturligtvis räcka med så enkla regler som Ladda ner fil A. Ladda ner fil B., men mer generella regler som dessa gör regelskrivandet behagligare och mindre tidskrävande. I bästa fall kan också samma regler fånga upp nytillkomna filer av intresse vid en senare körning. Metadata sparas för varje nedladdad fil: datum och tid, regelnamn, webbadress med mera

26 4 Extraktion av dokument Innan extraktion kan ske mot den korpus som samlats in bearbetas dokumenten till ett mer enhetligt format. Därefter skiljs två icke-överlappande delmängder ut från de 4639 dokumenten: en träningsmängd som omfattar 231 dokument, eller cirka 5 % av korpusen, och en testmängd som omfattar 462 dokument, eller cirka 10 %. De bearbetade dokumenten i träningsmängden studeras. Mönster som indikerar att dokumentet innehåller termdefinitioner identifieras och formaliseras till regler som tolkas av en regelmotor. Reglerna prövas och förfinas i en iterativ process. Utdata av extraktionen redovisas i ett webbgränssnitt. 4.1 Bearbetning Viss bearbetning av nedladdade dokument krävs för att kunna skriva extraktionsregler mot relativt enhetlig data. Korpusen normaliseras i två avseen: dokumentformat och teckenkodning. Som diskuterades i sektion ovan är PDF-formatet besvärligt att arbeta med jämfört med HTML. Dessutom är det lämpligt att kunna utföra själva extraktionen mot ett a dokumentformat. Därför konverteras PDFdokumenten i korpusen till HTML. För detta används det fria verktyget pdftohtml 1. Ett PDF-dokument får naturligtvis inte nödvändigtvis semantiskt korrekt struktur bara för att det konverteras till HTML. Att inducera struktur ur PDFdokument är ett omfattande arbete där man får ta fasta på visuella ledtrådar (Gurcan m.fl., 2003). Det verkar tyvärr saknas fritt tillgängliga verktyg för detta. Alla HTML-dokument inklusive de konverterade PDF-filerna konverteras därefter till en och samma teckenkodning (UTF-8). Entiteter, som ö, görs om till de tecken som de representerar. Fördelen med normaliserad teckenkodning är att extraktionsreglerna inte behöver ta hänsyn till de olika sätt som till exempel ett ö kan skrivas 2. För att fastställa källteckenkodningen används i första hand webbserverns 1 Flaggorna -noframes -c -i används för att få utdata i en a HTML-fil med komplex layout och utan bilder. 2 Bland annat ö, ö och ö. Faktum är att ett ö kan skrivas på flera sätt även i UTF-8 som ett a tecken eller som kombinationen av o och. Det har inte funnits tid att fördjupa sig i detta, men i praktiken verkar den normalisering som görs tillräcklig. 26

27 metadata 3 och i andra hand metadata inuti själva dokumentet 4. Som sista utväg görs en uppskattning med hjälp av kodbiblioteket chardet Analys Dokumenten i träningsmängden lästes igenom manuellt. Indikatorer på definitioner noterades och generaliserades. Dessa formuleras sedan som regler. Resultatet av att tillämpa dessa regler på träningsmängden avslöjar brister och ger upphov till förbättrade regler. På detta sätt är regelskrivandet en iterativ process snarlik den Meyer m.fl. (1999) använder för att hitta informationsmönster för termextraktion (se sektion ). Myndigheters föreskrifter är till viss del formbundna. Handboken DS 1998:43, Myndigheternas föreskrifter (Statsrådsberedningen, 1998), menar att definitioner bör komma i ett särskilt definitionsavsnitt. Som exempel ges (i Statsrådsberedningen (1998, s. 87)) Definitioner 2 Med skors huvudbeståndsdelar avses sådana delar som beskrivs i bilaga 2. Detta utvecklas vidare med att [f]acktermer... skall förklaras.... Man kan... antingen ha en inledande bestämmelse med definitioner eller ordförklaringar eller en särskild fackordlista (Statsrådsberedningen, 1998, s. 110). I övrigt sägs det att presens skall... användas i definitioner (med x avses y) (Statsrådsberedningen, 1998, s. 105), och exemplet så är fallet t.ex. i definitioner (Med tobaksvara förstås en produkt som till någon del innehåller tobak) (Statsrådsberedningen, 1998, s. 96) ges i samband med ett annat påbud. Även om dessa till största delen är rekommationer verkar de stämma ganska väl överens med föreskrifterna i träningsmängden. Definitionsavsnitt ofta med rubriken Definitioner är inte ovanliga, och särskilt mönstret med term avses definition är mycket vanligt förekommande. En princip som följdes vid analysen var att hellre göra mönstren för generella än för snäva; i sin diskussion om användarvänlighet inom termextraktion påpekar Thurmair (2003) hur det i regel är lättare att sortera bort felaktiga träffar än att söka upp sådana som aldrig kom med. I utvärderingstermer eftersträvas hög täckning även om det blir på bekostnad av precisionen. 4.3 Regler Somliga av de mönster som identifieras är informationsmönster av det slag Meyer m.fl. (1999) talar om, det vill säga förutsägbara mönster som indikerar någon begreppsrelation. Ett mycket vanligt mönster för definitioner i föreskrifter har till exempel visat sig vara med... avses Exempelvis Content-Type: text/html; charset=utf-8. 4 Exempelvis <meta http-equiv="content-type" content="text/html;charset=utf-8">

28 P Text i B stil. fet, I kursiv Figur 4.1: Trädrepresentation av HTML-koden text i fet, kursiv stil.. P, B och I är elementnoder; övriga är textnoder. Andra mönster som används för att extrahera relevanta dokument kan ses som en slags metainformationsmönster mönster som indikerar informationsmönster. Rubriken Definitioner ingår själv inte i någon begreppsrelation, men mellan denna rubrik och nästa (på samma eller högre rubriknivå) kan till exempel tabellrader i två kolumner ses som paralingvistiska informationsmönster för definitionsrelationen. Regelmotorn i sig är enkel. Den itererar över dokument och tillämpar reglerna på varje. När en regel uppfylls informerar den regelmotorn om vilka element i dokumentet som ska plockas ut. Avslutningsvis genereras ett webbgränssnitt som presenterar sådana träffar gulmarkerade i dokumentet och listade i en förteckning. Reglerna tillhandahålls dokumentet genom HTML-parsern Hpricot 6 som representerar dokument som träd. Ett exempel på HTML i trädrepresentation ges i figur 4.1. Totalt skrevs fyra regler. Dessa redovisas i bilaga A.2. Gemensamt för alla regler är att de använder sig av reguljära uttryck som är kastokänsliga (eng. case insensitive) och där jokertecken får matcha flera rader (flaggorna i och m i Ruby). Vidare används det reguljära uttrycket \s+ (ett eller flera blanktecken) mellan löpord i stället för mellanslag, för att även motsvara till exempel radbrytningar eller radbrytningar följda av mellanslag då ett sådant bruk av blanktecken inte är ovanligt i HTML-dokument Sökning i löptext Tre av reglerna söker i hela dokumentets textmassa. Detta är inte helt trivialt eftersom det finns två nivåer att röra sig mellan: dels texten man ser i sin webbläsare, dels den bakomliggande trädrepresentationen. En utökning av regelmotorn hanterar detta så att man i reglerna kan koncentrera sig på texten man ser och få det transparent översatt till extraktion av element i trädet. Reglerna består av mönster uttryckta som reguljära uttryck. Även antimönster kan anges för att utesluta vissa motexempel

29 Avses/menas/förstås Den första regeln är avsedd att hitta definitioner som i denna författning avses med term definition eller med term menas definition. Faktum är att det reguljära uttrycket enbart kräver något av löporden avses, menas och förstås ; om det sedan föregås eller följs av med något inkluderas även detta, men det är inte nödvändigt. Ett anti-mönster förbjuder t.ex. som avses och som inte avses dock inte när det fortsätter som avses med. Dessutom utesluts avses ha och likadant för bli, börja och genomföras Följande begrepp/definitioner/... Den andra regeln täcker ett stort antal uttryck i stil med här används ordet ord, i denna föreskrift förekommer följande beteckningar och i detta avsnitt används följande begrepp med nedan angiven innebörd. Förleden som i detta avsnitt används och efterleden som med nedan angiven innebörd är inte nödvändiga när själva kärnan är följande begrepp/beteckningar/definitioner/ordförklaringar/termer. En variant på mönstret byggs kring nyckelord i bestämd form singularis, som i denna föreskrift används ordet/begreppet/termen/definitionen ord. I det fallet krävs både förledet och att nyckelordet följs av blanktecken och sen något löpord Definitionen/definitionerna/termen/... Den sista löptextregeln fångar helt enkelt upp olika böjningsformer av orden definition, term och begrepp. Regeln har låg precision, men utan den blir täckningen lidande. Även sådana träffar som inte är definitioner kan ha intressanta anmärkningar. Två anti-mönster finns: ett som motsvarar uttrycket faller (inte) under definitionen och ett där nyckelordet föregås av redogöra för (innebörden av) Sökning i rubriker Den fjärde och sista regeln söker inte i hela dokumentets text, utan enbart i sådana element som används för rubriker. Utöver de element, h1 h6, som är avsedda för rubriker räknas även andra som i praktiken används i dokumenten: div, span, td, th, p, b, strong, i och em. Textinnehållet i dessa element matchas mot ett reguljärt uttryck som innehåller enbart definitioner/termer/begrepp/ordlista, eventuellt föregånget av löpord och eller följt av och löpord. Hela det uttrycket får också föregås av sådant som 1. eller 2. kap och efterföljas av vad som helst inom parenteser. 4.4 Webbgränssnitt När extraktionen är klar redovisas resultatet i ett webbgränssnitt (figur 4.2) 7. 7 Webbgränssnittet för testmängdens utdata finns fullt fungerande på uu.se/~henrikn/termyn/utdata/. 29

30 Figur 4.2: Webbgränssnitt för extraktionsresultat. Samtliga dokument listas till vänster under rubrikerna Extraherade dokument och Övriga dokument. För varje extraherat dokument listas alla regelträffar med regelnamn och den text som matchades av regeln. Dokumenten visas till höger. Varje regelträff är en hyperlänk till den platsen i dokumentet. Text som matchats av regler är gulmarkerad. Länken Meta vid varje dokument i listan visar metadata om dokumentet: nedladdningsdatum, nedladdningsregelns namn (det vill säga myndighetens namn) och länkar till såväl originaldokumentet (den webbadress som dokumentet hade vid nedladdningstillfället) och till det hänvisande dokumentet (den sida som hade nedladdningslänken på sig). Länken till originaldokumentet är användbar till exempel om ett PDF-dokument inte kunnat konverteras korrekt; det hänvisande dokumentet kan innehålla ytterligare metadata. 30

31 5 Utvärdering av dokumentextraktion De dokument som används i utvärderingen samlades in på förmiddagen 9 maj 2007 enligt de regler som redovisas i bilaga A.1. Av totalt 4639 insamlade dokument valdes 462 dokument (cirka 10 %) slumpmässigt ut för utvärdering den så kallade testmängden. Det som utvärderas i detta avsnitt är extraktionen av dokument; själva nedladdningen utvärderas inte. De regler som utvecklats för Termyn tillämpades på testmängden. Utdata jämförs med den så kallade guldstandarden som innehåller data från manuell dokumentextraktion av två terminologer. Denna redovisas i nästa sektion, 5.1. I sektion 5.2 jämförs sedan systemets klassificering med guldstandarden. 5.1 Guldstandard Två personer terminologer vid TNC har oberoe av varandra manuellt fått klassificera dokumenten i testmängden. Dokumenten klassificerades efter huruvida de ansågs innehålla definitioner av termer 1. En terminolog ( A ) har klassificerat samtliga 462 dokument; den andra ( B ) har enbart haft möjlighet att klassificera de första 253 (drygt halva testmängden, 5,5 % av insamlade dokument). Därför utvärderas främst de 253 dokument som båda har klassificerat. Testmängden valdes slumpmässigt, men inom denna presenterades dokumenten för terminologerna i insamlingsordning, vilket dessvärre innebär att de dokument B klassificerat och därmed den mängd dokument som båda klassificerat inte fullt ut är ett slumpmässigt urval. Av denna anledning ska de delar av utvärderingen som rör dessa dokument inte ses som säkra. Den totala mängd dokument som A klassificerat är däremot slumpmässig. Svarsalternativen var ja (innehåller definitioner av termer), nej och kan inte avgöra. Sistnämnda alternativ var avsett att undvika godtyckliga svar i svåravgjorda fall. Detta alternativ har dock ingen motsvarighet i Termyns binära klassificering. Därför har dokument med detta svar 2 helt enkelt räknats bort inför utvärderingen. Av de dokument som båda klassificerat återstår då 242 stycken. Av A:s 462 dokument kvarstår 456 och av B:s 253 dokument kvarstår 246. Klassificeringen skedde i ett webbgränssnitt (se figur 5.1) utvecklat för ändamålet. 1 Instruktionerna är inte fullständigt entydiga, men det vore inte lämpligt att ge mer exakta kriterier för vad som ska ingå och inte; själva bedömningen av vad som ska tas med är ju central klassificeringar; 11 stycken eller 4,4 % av de gemensamma dokumenten. 31

32 Figur 5.1: Webbgränssnitt för manuell dokumentklassificering. I webbgränssnittet fick terminologerna se PDF-dokument i original, inte konvertererade till HTML. Tanken var att bespara dem eventuella konverteringsproblem 3. HTML-dokument visades i samma format som Termyn får dem tillhanda, det vill säga normaliserade med avsee på teckenkodning Kappa Två slumpmässiga utvärderare, som var och en väljer mellan två lika sannolika alternativ för varje dokument, skulle klassificera 50 % av dokumenten likadant. Carletta (1996) menar att rena enighetssiffror därför inte är ett gott mått på överensstämmelse mellan klassificerare: graden av enighet tar ingen hänsyn till vad slumpen ger. Korrespondensen mellan klassificeringar mäts i stället ofta med så kallad kappastatistik (Cohen, 1960; Passonneau, 1997). Kappastatistik ger en koefficient på en skala mellan 1 och 1, där 1 representerar total oenighet, 0 lika stor enighet som slumpen ( tillfällig enighet ) och 1 total enighet. Formeln kan uttryckas κ = observerad enighet tillfällig enighet 1 tillfällig enighet (4) Värdet beräknades på följande data: 3 Till exempel när texten är lagrad som en stor bild (inte ovanligt för äldre föreskrifter som scannats in från pappersförlaga), när dokumentet är kopieringsskyddat (och därmed konverteringsskyddat) eller när en särdeles komplex layout leder till att HTML-dokumentet visar flera lager text på samma skärmutrymme. 32

Visa mer