Termyn. Automatisk insamling och extraktion av myndighetsföreskrifter för termexcerpering. Henrik Nyh

Storlek: px
Starta visningen från sidan:

Download "Termyn. Automatisk insamling och extraktion av myndighetsföreskrifter för termexcerpering. Henrik Nyh"

Transkript

1 Termyn Automatisk insamling och extraktion av myndighetsföreskrifter för termexcerpering Henrik Nyh Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 4 juni 2007 Handledare: Beáta Megyesi, Uppsala universitet Henrik Nilsson, Terminologicentrum TNC

2 Sammandrag I detta arbete samlas svenska myndighetsföreskrifter in från webben varpå de dokument som innehåller termer med definitioner extraheras. Extraherade dokument presenteras i ett webbgränssnitt med relevanta textavsnitt visuellt utmärkta och hyperlänkade. Datainsamling och extraktion sker automatiskt utifrån handskrivna regler. Extraktionsreglerna bygger på informationsmönster och liknande mönster formaliserade genom reguljära uttryck och traversering av HTML i trädrepresentation. Arbetet har utförts i samarbete med Terminologicentrum TNC och är avsett att stödja det manuella arbetet med att berika Rikstermbanken, en nationell svensk termbank. En utvärdering av extraktionen mot två terminologers manuella klassificering visar på god täckning, runt 90,0 %, och acceptabel precision, runt 47,4 %. Den klassificering som det utvecklade systemet gör är lika eller mer enig med den ena terminologens indelning än vad de båda terminologerna är med varandra. Abstract This thesis describes the retrieval of Swedish authority regulations from the World Wide Web and the subsequent extraction of those documents that contain terms with definitions. The extracted documents are presented in a web interface with the relevant parts highlighted and hyperlinked. Retrieval and extraction are automatic from hand-written rules. The extraction rules are based on knowledge patterns and similar patterns formalized as regular expressions and HTML document tree traversal. The thesis was done in association with Terminologicentrum TNC The Swedish Centre for Terminology to aid their work with Rikstermbanken, a national Swedish term bank. An evaluation of the extraction against manual classification by two terminologists shows good recall, around 90.0%, and acceptable precision, around 47.4%. The agreement between the classifications of the system developed in this thesis and those made by one of the terminologists is equal to or higher than the agreement between both terminologists.

3 Innehåll Sammandrag 2 Abstract 2 Förord 6 1 Inledning Syfte Disposition Terminologi Terminologiläran Begreppsanalys Terminologiarbete Arbetsgång Termextraktion Statistiska metoder Lingvistiska metoder Hybridsystem Extraktion av relationer och definitioner Datainsamling Data Urval Insamling Extraktion av dokument Bearbetning Analys Regler Sökning i löptext Sökning i rubriker Webbgränssnitt Utvärdering av dokumentextraktion Guldstandard Kappa Precision och täckning Termyn Kappa

4 5.2.2 Precision och täckning Diskussion Framtida utvecklingsmöjligheter Sammanfattning 39 Litteraturförteckning 40 A Bilagor 44 A.1 Nedladdningsregler A.2 Extraktionsregler

5 Figurer 2.1 Generiskt begreppssystem Begreppstetraedern Post från Europeiska kommissionens flerspråkiga termbank Euro- DicAutom TerminoWeb Trädrepresentation av HTML Webbgränssnitt för extraktionsresultat Webbgränssnitt för manuell dokumentklassificering

6 Förord Tack till mina handledare Henrik Nilsson och Beáta Megyesi för all hjälp. Tack också till A och B vid Terminologicentrum TNC för hjälpen med utvärderingen, och till alla andra där för möjligheten att göra det här arbetet. Biblioteket på TNC har min uppskattning för sina bidrag till den digra litteraturlistan. Professor Joakim Nivre var till stor hjälp med statistiken. Tack vidare till Filip Salomonsson, Björn Lindström och Mirza Škornja för värdefulla synpunkter under arbetets gång. Tack till Fredrik Bränström för hjälp med korrekturläsning. 6

7 1 Inledning Tydlig och entydig kommunikation mellan lekmän och fackmän, eller mellan medborgare och myndigheter, förutsätter att fackuttryck används på ett enhetligt sätt. En etablerad terminologi underlättar också utbyte mellan fackmän och samarbete mellan myndigheter. Terminologer arbetar med just detta att systematisera begrepp, hitta goda termer och skriva definitioner. Ett viktigt led i detta terminologiarbete är excerpering: att ur facktexter extrahera termer, deras innebörd och deras användning. Att arbetet är tidskrävande och mödosamt, och att det numera publiceras stora mängder maskinläsbar text (inte minst på webben), har medfört att många metoder för s.k. automatisk termextraktion utvecklats. En mer rättvisande benämning är halvautomatisk eller datorstödd extraktion, då datorn ger förslag som måste kontrolleras manuellt. Sådan extraktion tjänar inte enbart till att snabba upp terminologiarbetet; att automatiskt hitta termer i ett källmaterial är också till stor nytta för till exempel översättning 1 och informationssökning 2. I Sverige utvecklas just nu på regeringens uppdrag en nationell så kallad termbank, Rikstermbanken, av det statligt finansierade företaget Terminologicentrum TNC. En termbank är en elektronisk terminologisk ordlista. Rikstermbanken är avsedd att omfatta termer från ett flertal fackområden och ska kunna användas av både företag och myndigheter. Ett av projektets syften är harmonisering av terminologi mellan olika myndigheter och organisationer (TNC, 2007). 1.1 Syfte Syftet med det här arbetet är att samla ihop svenska myndigheters föreskrifter från webben och automatiskt extrahera de dokument som innehåller definitioner av termer 3. Det system som utvecklas för detta kallas Termyn. Arbetet utförs i samarbete med Terminologicentrum TNC och utgör underlag för vidare manuell excerpering i syfte att berika Rikstermbanken. Metoden för att avgöra vilka dokument som ska extraheras är inspirerad av conceptual sampling (Meyer m.fl., 1999) och vidhörande idéer om informations- 1 Flerspråkig termextraktion extraherar förutom termer även deras ekvivalenter på andra språk. 2 Facktermer i ett dokument fungerar ofta även som indextermer för detsamma. Indextermer är sådana nyckelord och -fraser som inom informationssökning anses känneteckna dokumentet. 3 Enligt begreppsanalysen (se sektion 2.1.1) är både termer och definitioner bestämningar till begrepp: definitioner hör till begrepp, inte direkt till termer. Definitioner av termer och liknande formuleringar i det kommande är därför inte helt korrekta, men behändiga. 7

8 mönster återkommande grammatiska, lexikala eller paralingvistiska mönster som avslöjar begreppsrelationer som tidigare använts för automatisk extraktion av termer och definitioner. I detta arbete används informationsmönster och andra relaterade mönster för att extrahera dokument och inom dessa peka ut relevanta textavsnitt. Resultatet utvärderas mot manuell dokumentsökning med avsee på enighet, precision och täckning. 1.2 Disposition I kapitel 2 redovisas relevant bakgrund och tidigare forskning om termextraktion. Kapitel 3 redovisar insamlingen av föreskrifter och kapitel 4 redogör för extraktionen av relevanta dokument. I kapitel 5 utvärderas arbetet. Kapitel 6 diskuterar utvärderingens resultat och innehåller reflektioner om framtida utvecklingsmöjligheter. Det avslutande kapitel 7 sammanfattar arbetet. I två bilagor redovisas de regler som utvecklats för nedladdning (bilaga A.1) och extraktion (bilaga A.2). 8

9 2 Terminologi I det här kapitlet ges först en kort genomgång av terminologiläran. Sedan redovisas hur praktiskt terminologiarbete går till. Därpå följer en redogörelse över relevant forskning inom termextraktion, som täcker statistiska, lingvistiska och hybridmetoder och automatisk extraktion av termers relationer/definitioner. 2.1 Terminologiläran Ordet terminologi kan användas både för en samling ord och uttryck med särskild betydelse på ett specifikt område, och för läran om sådana terminologier. Det senare kallas mer entydigt terminologilära. Terminologiläran definieras i den internationella standarden ISO :2000 (ISO/IEC, 2000), utfärdad av Internationella standardiseringsorganisationen (ISO), som studiet av hur terminologier struktureras, bildas, utvecklas, används och hanteras. Det är en ganska ung disciplin, född först i början av 1900-talet (TNC och Spri, 1999). Terminologiläran hör liksom lexikografi och översättning till den tillämpade grenen av lingvistiken (Termium, 2006) Begreppsanalys En viktig del av det praktiska terminologiarbetet är att kunna skilja på de tre slags bestämningar referent, term och definition som är knutna till ett begrepp. I begreppsanalysen hänför man begreppet och dess bestämningar till tre världar : verkligheten hyser referenter, tankevärlden rymmer begrepp och den språkliga världen innehåller termer och definitioner (TNC och Spri, 1999). I det följande återges termer kursiverat (term), begrepp med enkla citattecken ( begrepp ), definitioner inom dubbla citattecken ( definition ) och begrepps kännetecken med understrykning (kännetecken) Referent Referenter är entiteter i verkligheten eller i vår gemensamma föreställningsvärld. De kan vara konkreta (som bok, enhörning) eller abstrakta (glädje, ondska) Begrepp Begrepp är kognitiva abstraktioner av någon enskild eller någon samling referenter. De är en unik uppsättning kännetecken som avspeglar egenskaper (TNC och Spri, 1999, s. 9) hos dessa referenter. Till exempel kan be- 9

10 träd lövträd barrträd... björk lönn ek... gran tall lärkträd Figur 2.1: Exempel (från TNC och Spri (1999, s. 10)) på ett generiskt begreppssystem. greppet träd unikt kännetecknas som: vedväxt, högvuxen, icke klättrande, med genomgåe huvudstam (exempel från TNC och Spri (1999)). Genom att ta bort kännetecken får man ett bredare begrepp som avser fler referenter (t.ex. även buskar), och på motsvarande sätt blir begreppet snävare (t.ex. enbart lövträd) om kännetecken läggs till. Ett allmänbegrepp avser en grupp av referenter (t.ex. universitet ); ett individualbegrepp avser någon unik referent (t.ex. Uppsala universitet ). Begrepp inordnas i olika former av begreppssystem. I ett generiskt begreppssystem som figur 2.1 ordnas begreppen hierarkiskt med överbegrepp; underbegrepp, som har något särskiljande kännetecken gentemot överbegreppet; och sidobegrepp som delar samma närmaste överbegrepp. Det finns även partitiva begreppssystem, som tar fasta på sådant som att en rot är en del av ett träd ; och associativa begreppssystem som är icke-hierarkiska och i stället redovisar förhållanden som att en viss produkt ( bensin ) tillverkas utifrån ett visst material ( petroleum ) med en viss metod ( krackning ). Olika typer av begreppssystem kan användas ihop för att förstå begreppsrelationerna inom ett fackområde. Vidare kan ett a fackområde rymma flera begreppssystem av olika omfattning (TNC och Spri, 1999) Term Termer och definitioner hör till den språkliga nivån. Termen är en benämning för något allmänbegrepp som tillhör ett fackområde (Nordterm, 2006) 1. Individualbegrepp har i stället namn. Det finns enordstermer (papper och pappersflygplan) men även flerordstermer (kallpressat papper). Även förkortningar (IT = informationsteknologi) (TNC och Spri, 1999) kan vara termer, liksom vissa symboler (Suonuuti, 2004). En term är alltså inte samma sak som ett ord, vilken insikt var en av anledningarna till att terminologiläran en gång uppstod som en egen lingvistisk disciplin (Pearson, 1998) Definition Definitionen är en språklig beskrivning av begreppet som tar fasta på dess särskiljande kännetecken. För träd kunde det vara vedväxt som är högvuxen och icke klättrande och som har genomgåe huvudstam (Suonuuti, 2004, s. 15). 1 Nordterm är ett samarbetsforum för nordiska terminologiorganisationer. 10

11 en allmän terminologilära. Denna teori var tänkt att gälla alla fackområden och fackspråk. Han var den första som placerade begreppet i centrum för den terminologiska analysen. relationerna mellan fyra centrala begrepp, nämligen referent, begrepp, term och definition vilket kan åskådliggöras med hjälp av nedanståe tetraedermodell. Begrepp tree arbre träd Termer Referenter Baum Definition högvuxen, icke klättrande vedväxt med genomgåe huvudstam Figur 2.2: Begreppstetraedern (från TNC och Spri (1999, s. 7)). Spri rapport Innehållsdefinitioner (eller intensionella definitioner), som den ovanståe, redovisar alltså kännetecken. Det finns också omfångsdefinitioner (eller extensionella definitioner) som i stället består av en uttömmande uppräkning av alla underordnade begrepp eller alla referenter som omfattas. En omfångsdefinition av vecka vore måndag, tisdag, onsdag, torsdag, fredag, lördag och söndag. Omfångsdefinitionens status är ifrågasatt, och vissa terminologer menar att den är en ytterligare slags begreppsbestämning utöver referent, term och definition (TNC och Spri, 1999) Begreppstetraedern Relationerna mellan referent, begrepp, term och definition brukar åskådliggöras med den så kallade begreppstetraedern (figur 2.2), som bygger på Ogden och Richards (1923) semiotiska triangel men inför ett ytterligare hörn för definitionen (TNC och Spri, 1999). I begreppstetraedern går de heldragna linjerna just till begreppet. Detta avser visa hur det alltid finns ett begrepp, även om något annat av tetraederns hörn saknas: det kan finnas begrepp som vi saknar termer för, begrepp som vi saknar definitioner för och begrepp som saknar referenter. Ingen av dessa kan dock finnas utan vidhörande begrepp. Begreppet är utgångspunkten för allt terminologiarbete (TNC och Spri, 1999, s. 9). 2.2 Terminologiarbete Terminologiarbete bygger på terminologiläran och skildras av Nordterm (2006) som att man på ett systematiskt sätt samlar, analyserar, beskriver och presenterar ett visst fackområdes begrepp och deras benämningar. Ändamålet kan vara deskriptivt eller preskriptivt (Nuopponen, 2003). Det delmoment som om- 11

12 fattar registrering och presentation av [begrepp, termer, namn och symboler] (Nordterm, 2006) benämns terminografi. Praktiskt terminologiarbete sker ofta i projektform och av arbetsgrupper beståe av både terminologer och experter på det berörda fackområdet. Slutprodukten är en terminologi som presenteras i form av en ordlista eller en termdatabas (också kallad termbank). Den framarbetade terminologin tjänar bland annat till att effektivisera kommunikation mellan experter och med allmänheten genom entydiga och väldefinierade termer (TNC och Spri, 1999) Arbetsgång Här redovisas i korthet de delmoment som brukar ingå i ett terminologiskt projekt för att utarbeta en terminologi. Andra typer av terminologiarbete kan ha delvis andra moment. De principer som redovisas bygger på ett antal beprövade internationella standarder, utfärdade av ISO (Suonuuti, 2004) Avgränsning En förutsättning för själva arbetet är att det terminologiska området avgränsats. Målgrupp och användningsområde för terminologin utreds och själva fackområdet inventeras (TNC och Spri, 1999). Om området visar sig innehålla en stor mängd begrepp kan det vara lämpligt att dela upp arbetet i delprojekt. En tidplan upprättas, som avgränsar arbetet i tid och anger varje deltagares ansvarsområde (Suonuuti, 2004) Källmaterial Begreppssystem upprättas i praktiken genom att man söker termer i en korpus av fackspråkligt material. En korpus beskrivs av McEnery och Wilson (2001, s. 32) som a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration men med reservationen att detta är en prototypisk definition som medger undantag: det finns öppna korpora som växer i storlek och korpora i tryckt form. Efter att det terminologiska området avgränsats är nästa steg att fastställa vilket material som ska ingå i denna korpus. Vissa krav bör ställas på det källmaterial som väljs ut, till exempel att det är representativt för området med hänsyn till de begränsningar som gjordes i första steget och att det inte är föråldrat (Cabré, 1999). Samtidigt kan äldre texter definiera sådant som i nyare texter tas för självklart, så även de kan ha ett värde (Bowker och Pearson, 2002) Excerpering Termer söks sedan i korpusen, manuellt eller (halv)automatiskt med hjälp av datorprogram. Termen (automatisk) termextraktion brukar användas om det automatiska och (manuell) excerpering om det manuella arbetet 2. Inte bara ter- 2 Det finns gott om belägg för denna indelning, t.ex. projects/kbn/dokumenter/tkechapter_final.pdf, men kontrasterande definitioner av termerna verkar inte stå att finna. 12

13 merna är av intresse, utan också de sammanhang i vilka de används liksom definitioner och semantiska relationer till andra begrepp. Termer, kontext och andra intressanta data protokollförs (Cabré, 1999) Upprättande av begreppssystem Utifrån den kunskap man nått genom excerperingen/extraktionen upprättas begreppssystem. Själva begreppens omfång och innehåll (TNC och Spri, 1999, s. 16) utreds och deras kännetecken och relationer identifieras. Begreppssystemen kan föregås av provisoriska begreppsfält begrepp grupperade tematiskt. Systemen revideras inte sällan efter det att definitionerna skrivits och man nått ny kunskap (TNC och Spri, 1999) Definitionsskrivning Definitionens plats i begreppstetraedern redovisades kort i sektion ovan. För att en sådan definition ska vara terminologiskt godtagbar ska den möta ett flertal krav. En definition i terminologisk mening är inte alltid detsamma som en ordförklaring i en allmänspråklig ordbok. Ordförklaringen är en lättbegriplig förklaring av ett förväntat okänt ord, medan (innehålls)definitionen syftar till att avgränsa och placera ett begrepp i förhållande till övriga begrepp i samma begreppssystem (TNC och Spri, 1999). Som exempel (från TNC och Spri (1999, s. 12f)) kan man se till hur småhus definieras (eller förklaras) i en allmänspråklig ordbok och en terminologisk ordlista: småhus (mindre) enfamiljshus (ur: Svensk ordbok) småhus bostadshus med högst två bostadslägenheter (ur: TNC 95 Plan- och byggtermer) Den allmänspråkliga ordförklaringen använder sig av ordet mindre, vilket knappast gränsar av begreppssystemet på ett precist sätt. I den terminologiska ordlistan definieras termen inom ramarna för det generiska begreppssystemet, genom att utgå från termen (bostadshus) för närmast överordnade begrepp och ange de ytterligare kännetecken (med högst två bostadslägenheter) som är särskiljande. Det bör dock betonas att en allmänspråklig ordbok har andra ambitioner än den terminologiska ordlistan (Pearson, 1998), och att ovanståe kan vara fullt tillfredsställande som ordförklaring, om än inte som begreppsdefinition. Definitioner ska bara innehålla kännetecken som särskiljer mot andra begrepp (Suonuuti, 2004). Att inkludera med tak i definitionen ovan hade varit felaktigt, då detta kännetecknar alla bostadshus och dessutom alla hus 3. En definition ska vara kortfattad. Information som inte syftar till att placera begreppet inom dess begreppssystem läggs i stället i en anmärkning. Sådant 3 Det existerar givetvis hus utan tak, men antagligen inte som begrepp i TNC 95 Plan- och byggtermer. 13

14 kan vara viktiga men inte särskiljande kännetecken eller en uppräkning av referenter (Suonuuti, 2004). Enligt den så kallade utbytesprincipen ska definitioner i princip kunna ersätta termen i löpande text eller i andra definitioner (Suonuuti, 2004). Om man sätter in definitionen för träd i den för städsegrönt träd (från Suonuuti (2004)) kunde man till exempel få vedväxt som är högvuxen och icke klättrande och som har genomgåe huvudstam [och] som behåller sina blad året om. En textdefinition får gärna förtydligas med illustrationer, men kan ej ersättas av dem (Suonuuti, 2004). Sådant som ska undvikas vid definitionsskrivning är till exempel cirkeldefinitioner (inom samma definition eller mellan flera definitioner), för vida definitioner (med för få kännetecken) och för snäva definitioner (med för många kännetecken). En sorts för snäv definition är den som knyts till ett för begränsat ämnesområde till exempel (från Suonuuti (2004, s. 27)) fertilitet träds förmåga att åstadkomma avkomma när det vore mer lämpligt med fertilitet förmåga att åstadkomma avkomma Vidare ska termer som används i definitionen (till exempel avkomma ovan) inte förklaras där, utan i en egen termpost. Negativa definitioner att säga vad något inte är ska som regel undvikas, men kan vara lämpligt för vissa begrepp, som flintskallig ( som inte har hår på huvudet ) (Suonuuti, 2004) Termval När terminologen väljer termer till begrepp finns det ett antal krav som bör mötas. Termen bör vara precis (datorskärm och inte skärm); entydig inom ämnesområdet (inte homonym eller polysem som terminologi); accepterad av fackmän, ibland rentav internationellt; passa in i svenskan (till exempel vad gäller stavning, böjning och uttal); ej missvisande (kärnenergi, inte atomenergi, då det rör klyvning av just kärnan); språkekonomisk (kort); och genomsynlig (lätt att förstå) (TNC och Spri, 1999). Den bör också helst spegla några av begreppets kännetecken (Suonuuti, 2004, s. 30). Ibland hamnar kraven i konflikt med varandra en lång termkandidat är mindre språkekonomisk men ofta mer genomsynlig än en kort och kan kanske inte alla tillgodoses (TNC och Spri, 1999). Ibland finns flera etablerade termer. I den situationen bör en term rekommeras och övriga införas som synonymer (TNC och Spri, 1999). För både termer och definitioner finns det också stil- och formkrav, som att de ska börja på liten bokstav och ha källhänvisning om källan är normativ (Suonuuti, 2004). 14

15 termpostnummer BTL - UTD svensk term term svensk definition språkligt uttryck för ett begrepp som tillhör ett fackområde svensk källa Terminologins terminologi s.20.-(nordterm 2) engelsk term term engelsk definition a word or phrase used to denote a concept engelsk källa Un.Term.Doc. fransk term terme fransk definition symbole conventionnel d une notion qui consiste en sons articulés ou en leur représentation graphique(= en lettres).un terme est un mot ou un groupe de mots(= locution) fransk källa AFNOR Figur 2.3: Post från Europeiska kommissionens flerspråkiga termbank EuroDicAutom ( Representation och publicering Den terminologi som produceras presenteras vanligen i form av terminologiska ordlistor, termbanker eller terminologiavsnitt i standarder (TNC och Spri, 1999). Termbanker är terminologiska ordlistor som lagras elektroniskt och gentemot vilka användare kan göra sökfrågor (Sager, 1990; Cabré, 1999). Vissa termbanker är fritt tillgängliga över webben; andra kan mot betalning erhållas på CD-ROM (Bowker, 2003). En terminologisk ordlista och en termbank består av flera termposter. Varje termpost omfattar ett begrepp, då det ju är begreppet som är det centrala (se sektion ). Därtill ska det finnas åtminstone ett termpostnummer, en rekommerad term och en definition (Suonuuti, 2004). Ytterligare information som kan förekomma är synonymer, anmärkningar, hänvisningar till relaterade begrepp, källa för informationen och ekvivalenter i andra språk (TNC och Spri, 1999). Ett exempel på hur en post ur en termbank kan presenteras ges i figur 2.3. Termposterna kan vara ordnade systematiskt (efter begreppssystem), alfabetiskt eller blandat (Suonuuti, 2004). I en termbank kan posterna naturligtvis sorteras och sökas på olika sätt. Det finns olika standarder för hur termposterna representeras internt. Olika dataformat kan ha olika styrkor och svagheter, och valet av format kan främja eller hindra datautbyte och samarbete, till exempel gemensam mjukvaruutveckling, mellan aktörer (Hjulstad och Eckmann, 1999). 2.3 Termextraktion Terminografer förlitar sig sedan slutet på 1990-talet allt mer på elektroniska korpora i en tr som följer den på det lexikografiska området (Meyer m.fl., 1999). 15

16 Som nämnts i sektion ovan används termen termextraktion främst för automatisk sökning av termer i en korpus. Det delmoment som syftar till enbart själva identifieringen av termer kallas termidentifiering (Termium, 2006). Utdata från termextraktionssystem är normalt kandidattermer, inklusive kontext och eventuellt information om frekvens med mera för att underlätta manuell efterbehandling (Cabré m.fl., 2001). Termextraktionssystem kan vara enspråkiga eller flerspråkiga. Flerspråkiga system får förutom en källtext även dess översättningar som indata, och extraherar förutom termer även deras ekvivalenter på andra språk (Bowker, 2003). För automatisk termextraktion gäller ännu att utdata snarast är att betrakta som just termkandidater de behöver verifieras av en människa. Därför talar vissa hellre om datorstödd eller halvautomatisk termextraktion (Bowker, 2003). Cabré m.fl. (2001) räknar upp de fyra huvudproblem som de menar att automatisk termextraktion har att lösa: (1) att identifiera var flerordstermer börjar och slutar; (2) att avgöra om en fras är en flerordsterm eller inte; (3) att identifiera om en lexikal enhet är en term i en viss facktext; och (4) att bedöma hur väl en term platsar i den aktuella terminologin. I deras genomgång av tolv termextraktionssystem redovisar Cabré m.fl. (2001) precisionssiffror på %, och täckningssiffror på %. Dessa siffror är från systemutvecklarnas egna mycket olika utvärderingar och är därför knappast direkt jämförbara med varandra. Andra, som Pasanen (2005), menar att termextraktionssystem normalt når en precision på %. Automatisk termextraktion överlappar med automatisk indexering inom forskningsområdet informationssökning (information retrieval, IR) vad gäller de metoder som används. Så kallade indextermer är oftast termer också i terminologisk mening. Det omvända gäller inte alltid ett termextraktionsprogram ska utvinna alla termer, medan indextermer är just de lexikala enheter som beskriver dokumentets innehåll (Cabré m.fl., 2001). Därtill hör termer till ett fackområde, medan indextermer hänförs till specifika dokument och måste vara representativa just för dessa. I praktiken kan samma algoritmer dock ofta användas för att extrahera både indextermer och facktermer (Witschel, 2005). Automatiska termextraktionssystem har hittills använt sig av statistiska och lingvistiska metoder, inte sällan förenade i hybridsystem. Några metoder redovisas i nästkommande avsnitt. Metoder för termextraktion, såväl statistiska som lingvistiska, kan underindelas i sådana (bl.a. kallade ogena) som utgår från termernas egna egenskaper och sådana (bl.a. kallade exogena) som tar fasta på termernas sammanhang i en korpus (Maynard och Ananiadou, 1999; Cabré m.fl., 2001; Kageura m.fl., 2004). På senare år har det bedrivits allt mer forskning i att inte bara utvinna termer på automatisk väg, utan även deras semantiska relationer och definitioner. Detta redovisas i sektion som avslutar kapitlet. Zielinski och Ramírez (2005) nämner MultiTerm Extract (från Trados), SDL PhraseFinder, Xerox Termfinder, Terminology Wizard (från Synthema) och TerminologyExtractor (från Chamblon) som några av det fåtal termextraktionssystem som dominerar marknaden idag. Av dessa sex system är hälften rent statistiska och hälften hybrider. 16

17 2.3.1 Statistiska metoder Statistiska metoder för termextraktion tar fasta på de statistiska egenskaper som skiljer termer från ord i löpande text. Det vanligaste är att fokusera på flerordstermer och titta på associationsmått för de ingåe orden (Alegria m.fl., 2004). Sådana associationsmått bygger ofta (Cabré m.fl., 2001) på det informationsteoretiska måttet ömsesidig information (eng. mutual information). Ömsesidig information kan uttryckas I(x, y) = log 2 P(x, y) P(x)P(y) (1) (Church och Hanks, 1989, s. 77) och innebär enkelt uttryckt att man jämför sannolikheten att två händelser (exempelvis ordförekomster) inträffar tillsammans, med sannolikheten för att de inträffar oberoe av varandra. Om båda sannolikheterna är ungefär lika stora blir kvoten runt 1 och logaritmen (och informationsvärdet) runt 0, medan en större förenad sannolikhet om de samförekommer oftare än vad slumpen ger innebär ett högre informationsvärde. Värdet kan bli negativt om orden står i komplementär distribution, det vill säga om de aldrig samförekommer. Church och Hanks (1989) beräknar vad de kallar en associationskvot mellan ord utifrån denna formel. P(x) är antalet förekomster av ordet x normaliserat på korpusens storlek. P(x, y) ser till hur många gånger orden x och y kommer i den ordningen, återigen normaliserat på korpusstorlek. Ordfönstrets storlek är en parameter man kan titta på enbart ord i direkt följd, eller tillåta att de står ett par ord isär, beroe på hur täta relationer man söker. Associationskvoten skiljer sig från ömsesidig information i det att den inbördes ordföljden mellan x och y spelar roll, det vill säga att P(x, y) = P(y, x) inte nödvändigtvis gäller. Ahmad m.fl. (1992) identifierar termer genom att jämföra den relativa frekvensen för någon termkandidat i en fackspråklig korpus med dess relativa frekvens i en välbalanserad allmänspråklig korpus, en så kallad referenskorpus. En kandidat som är signifikant mer frekvent i den fackspråkliga korpusen än i referenskorpusen kan misstänkas vara en term. Detta mått kallas weirdness. I Gillam m.fl. (2005) används additiv utjämning (eng. smoothing) eftersom man annars får en oändlig weirdness när en term helt saknas i referenskorpusen. Formeln (från Gillam m.fl. (2005, s. 6)) blir då τ(w) = N GL f SL (1 + f GL )N SL (2) där w är ett typord, f SL är ordets frekvens i en fackspråklig ( specialist language ) korpus, f GL är ordets frekvens i en allmänspråklig ( general language ) korpus, N SL är det totala antalet ord i den domänspecifika korpusen och N GL är det totala antalet ord i den allmänspråkliga korpusen. Hur formeln tillämpas på flerordstermer framgår inte. Det finns också statistiska metoder som tittar på ordens inre struktur. Cohen (1995) hittar indextermer genom att identifiera tecken-n-gram som är högfrekventa i en domänspecifik korpus jämfört med en referenskorpus. Ord eller ordgrupperingar poängsätts efter hur många sådana n-gram de innehåller, 17

18 och de som når över något gränsvärde accepteras som termer. Detta är (med ett exempel från Witschel (2005, s. 367)) särskilt effektivt inom domäner där termer ofta är på något främmande språk som det grekiska suffixet -itis (med betydelsen inflammation, t.ex. i eng. meningitis) inom medicin Lingvistiska metoder Termextraktion grundad i lingvistisk kunskap är språkspecifik i högre grad än statistisk extraktion och kräver ofta omfattande språkliga resurser; å andra sidan ger den ofta bättre avgränsade termer och färre repeterade böjningsformer än statistiska metoder (Zielinski och Ramírez, 2005). I 2.3 ovan nämndes hur man delar in termextraktionsmetoder i termbaserade och kontextbaserade. Maynard och Ananiadou (1999) kallar detta intrinsisk respektive extrinsisk information, och menar att informationen för lingvistiska metoder i båda fallen terar vara syntaktisk, men i det intrinsiska/ogena fallet även morfologisk. Det finns också ett fåtal metoder som bygger på semantisk information Syntax Den typiska lingvistiska metoden för termextraktion är att plocka ut sådana ordföljder som motsvarar vissa termtypiska ordklassmönster (Bowker, 2003). I svenskan är till exempel ADJEKTIV-SUBSTANTIV ett vanligt mönster för termer (som kallpressat papper), medan PREPOSITION-ARTIKEL knappast är det. Justeson och Katz (1995) (se Cabré m.fl. (2001)) står för ett tidigt exempel på sådan lingvistisk filtrering. Källtexten ordklasstaggas, varpå de kollokationer som inte motsvarar en uppsättning accepterade taggmönster filtreras ut. Dessutom krävs att kandidattermen har en viss minimifrekvens. För nominalfraser används det reguljära uttrycket ((A N) + ((A N) (NP)?)(A N) )N (3) där N står för substantiv, A för adjektiv och P för preposition. Som exempel accepteras engelska term extraction (SUBSTANTIV-SUBSTANTIV) medan of the (PREPOSITION-ARTIKEL) sorteras bort. Taggmönstren är avsedda att ge god precision, ibland på bekostnad av täckningen. Arppe (1995) hävdar att så mycket som % av termer är nominalfraser. Att så gott som uteslutande fokusera på ordklassmönster som motsvarar nominalfraser, vilket enligt Cabré m.fl. (2001) varit den genomgåe tren, kan därför anses motiverat. Ett lingvistiskt termextraktionssystem med ett lite annorlunda tillvägagångssätt är LEXTER (Bourigault, 1995) (se Cabré m.fl. (2001)). Maximalt långa nominalfraser identifieras och delas upp vid de ordklassmönster (i franskan exempelvis PREPOSITION-ARTIKEL, sur le ) som normalt inte ingår i en term. Systemet försöker hantera undantag, det vill säga de fall där en ordföljd som motsvarar ett sådant mönster ändå ingår i en term, genom att titta på hur produktiv ordföljden är när den följer på det aktuella substantivet. Enbart icke-produktiva ordföljder blir termgränser. 18

19 Morfologi Justeson och Katz (1995) (se Cabré m.fl. (2001)) visade att medellängden för en nominal term i engelska är 1,91 ord. Detta kanske kan motivera att man i engelskspråkig termextraktion, såväl statistisk som lingvistisk, oftast fokuserar på flerordstermer (Alegria m.fl., 2004). I svenska används dock ofta sammansättningar där till exempel franska eller engelska skulle ha en flerordsterm engelska web site blir svenska webbplats. Bland publicerad forskning om termextraktion hittar man mest metoder som fokuserar på flerordstermer; fokus är sällan på enordstermer och än mer sällan på sammansättningar. Ett undantag, utöver Cohen (1995) i ovan, är Heid m.fl. (1996) som extraherar termer ur tysk facktext. För att identifiera enordstermer görs ett antagande att de kännetecknas av vissa allmäntyska prefix (exempelvis motsvarande de reguljära uttrycken ab.+, ultra.+) och/eller suffix (.+artig,.+widrig). För den aktuella domänen, bilmekanik, identifierades dessutom vissa frekventa ordled (som.*motor.*). För att vara en kandidatterm ska ett ord innehålla minst ett sådant prefix, suffix eller ordled. I ett senare arbete generaliserar Heid (1999) processen. Statistiskt identifierade termkandidater analyseras morfologiskt. Lexikala (men inte grammatiska) morfem 4 som frekvent förekommer i termkandidater antas vara domänspecifika. Sådana domänspecifika morfem används sedan ihop med reguljära uttryck för morfologisk termextraktion Semantik Det förekommer också att semantisk information används, till exempel av Maynard och Ananiadou (1999) som med hjälp av en fackspråklig tesaurus beräknar semantiskt avstånd mellan någon given kandidatterm och andra kandidattermer i dess kontext. En kandidat som förekommer ihop med många kandidater som är semantiskt lika, rankas högre än om så inte varit fallet. Semantiken används också för termdisambiguering. Cabré m.fl. (2001) gjorde bedömningen att semantisk information måste tas till vara i högre grad för fortsatt förbättrade termextraktionssystem. Sådan information används dock fortfarande inte i de flesta kommersiella system (Zielinski och Ramírez, 2005) Hybridsystem Rent statistiska system terar undergenerera, då de t.ex. missar lågfrekventa termer; rent lingvistiska terar övergenerera, då de mönster som används kan vara för generella. Hybridsystem, som kombinerar metoder av båda slagen, ger bättre resultat (Zielinski och Ramírez, 2005). Cabré m.fl. (2001) menar att hybridlösningar är avgörande för den fortsatta utvecklingen av termextraktion. Enligt Maynard och Ananiadou (1999) är många hybridsystem till största delen statistiska, och använder lingvistisk information enbart för att filtrera fram de kandidater som är syntaktiskt rimliga. 4 Lexikala morfem är ordled med egen betydelse. Grammatiska morfem är funktionsord, böjningar och avledningar som bara har betydelse ihop med lexikala morfem. 19

20 Man kan vända på ordningen och tillämpa statistisk filtrering av lingvistiskt extraherade termkandidater, för att skilja kollokationer från slumpmässiga samförekomster (Witschel, 2005). Den inbördes ordning som lingvistik och statistik tillämpas i har viss betydelse. I det kanske första hybridsystemet för termextraktion valde Daille (1996) att tillämpa statistiken sist, då storlekarna på dess ordfönster därmed blev givna av den lingvistiska filtreringen, i stället för att sättas till mer godtyckliga värden som kunde vara för stora eller små i vissa fall. Gillam m.fl. (2005) menar att avgränsningen mellan statistiska och lingvistiska metoder är artificiell, att de är beroe av varandra och representerar olika sidor av hur information uttrycks i språk Extraktion av relationer och definitioner På senare år har fokus inom automatisk terminologihantering övergått från automatisk identifiering/extraktion av termer till att bland annat identifiera relationer mellan termer (Kageura m.fl., 2004; Patry och Langlais, 2005). Zielinski och Ramírez (2005) betraktar detta som lingvistisk termextraktion Informationsmönster En tidig studie av halvautomatisk extraktion av semantiska relationer var Hearst (1992). Lexiko-syntaktiska mönster som tyder på hyponymrelationer identifierades. Ett sådant mönster kan vara NP {, NP}* {,} or other NP som svarar mot till exempel Bruises, wounds, broken bones or other injuries... och då ger upphov till relationer som hyponym("bruise", "injury"), hyponym("wound", "injury") och hyponym("broken bone", "injury") (exempel från Hearst (1992, s. 3f)). Sedan tillämpas en iterativ process för att identifiera nya mönster: givet kända ord med någon relation ( bruise är hyponym till injury ) görs sökningar i texten på samförekomster av dessa ord. Kontexten för sådana samförekomster kan avslöja ytterligare mönster för samma relation. Dessa kan ge ytterligare termer, som ger ytterligare relationer, och så vidare. Liknande metoder har använts för termers relationer och definitioner. Conceptual sampling (Meyer m.fl., 1999; Meyer, 2001) handlar om att för en term i en korpus välja ut just de konkordansposter som illustrerar intressanta begreppsrelationer. Dessa poster kallas knowledge-rich contexts (KRCs). Det saknas en etablerad svensk term, men informationsrika kontexter 5 kanske kan användas. Meyer m.fl. (1999) ser tre praktiska användningsområden: 1. KRCs av hög kvalitet kan användas direkt som definitioner; 2. KRCs av lägre kvalitet kan vara en utgångspunkt för definitionsskrivande; 3. alla KRCs hjälper terminologen i sin begreppsanalys i övrigt. Conceptual sampling kan göras halvautomatiskt utifrån antagandet att a given conceptual relation will manifest itself in certain predictable, recurring patterns in text, which we term knowledge patterns (Meyer m.fl., 1999, s. 257). En möjlig svensk översättning är informationsmönster. Meyer m.fl. 5 Som direktöversättning från tyska informationsreicher Kontexte i examensarbetet

21 (1999, s. 257) ger följande exempel, bland andra, för termen amniocentesis och relationen HYPERONYMI, med informationsmönstren i fetstil: 1. Amniocentesis is the most commonly used test for prenatal diagnosis of genetic diseases or disorders. 2. Amniocentesis is a valuable diagnostic test available to help diagnose problems before the birth of a child. 3. It can be helpful to women considering whether to have more invasive tests such as amniocentesis. Informationsmönster kan vara lexikala mönster som i exemplen ovan; grammatiska mönster, som att engelska SUBSTANTIV-VERB för de flesta verb skildrar relationen FUNKTION; och paralingvistiska mönster, som textstruktur eller interpunktion placenta previa (a placenta abnormally located in the lower part of the uterus) manifesterar HYPERONYMI. Vissa informationsmönster (som is a ovan) är domänoberoe, medan andra (som i Maroon is a shade of red ) är domänspecifika (exempel från Meyer m.fl. (1999, s. 258ff)). En svårighet är att mönster kan vara polysema consist* of kan uttrycka såväl MERONYMI ( Breast milk consists of sugars, proteins and fats ) som HYPERONYMI ( Real-time ultrasound consists of a process whereby... ) (exempel från Meyer m.fl. (1999, s. 260f)). Två ytterligare problem med metoden är att informationsmönster inte rår på sådan information som måste nås genom slutledning eller kunskap om världen, och att sökningar utgåe från termer förstås inte rår på anaforer (Meyer m.fl., 1999). Å andra sidan menar Witschel (2005) att just termer terar att förekomma upprepade gånger utan variation i texter, vilket kanske mildrar anaforiproblemet. Meyer m.fl. (1999) menar att utvecklingen av informationsmönster i ett verktyg för conceptual sampling är en iterativ process där utdata kan ge upphov till nya mönster, eller begränsningar av tidigare mönster, i en strävan att balansera under- och övergenerering. Detta förefaller besläktat med den iterativa processen som presenteras i Hearst (1992). Idén om informationsmönster, med mindre skillnader, har med andra namn kallats till exempel knowledge probes (Ahmad och Fulford, 1992) (se Meyer (2001)) och defining expositives (Pearson, 1998) System DEFINDER och TerminoWeb är två system som tillämpar idén om informationsrika kontexter och informationsmönster. DEFINDER (Klavans och Muresan, 2000; Muresan och Klavans, 2002) extraherar term/definition-par från medicinsk text. Systemet består av en modul för mönstermatchning, en för djupare syntaxanalys och en mindre filtreringsmodul. Den första huvudmodulen använder en reguljär grammatik ihop med lexikala informationsmönster kallade cue-phrases (som is the term for, is called ) och paralingvistiska informationsmönster som parentetiska inskott. Därtill används en ordklasstaggare och en chunker för att identifiera enkla nominalfraser (huvudord och framförställda modifierare). Filtreringsmodulen sorterar sedan bort förklaringar, uppräkningar och liknande övergenereringar som informationsmönstren gett upphov till. 21

22 Bank fraud Bank, fraud, corruption, world, money, project, world bank, fraud corruption, contract, procurement, loan, financial, banks, identity, information, account, staff, fraudulent, credit, projects, theft, funds, borrower, business, number, card, investment, management, public, accounts Figure 4: TerminoWeb: term extraction and knowledge-rich context search panel Figur 2.4: Gränssnittet i TerminoWeb. Från Barrière och Agbago (2006, s. 9). I den andra huvudmodulen utförs en depensanalys, vilken kan avslöja lingvistiska fenomen som apposition, relativsatser och anafori. Därmed kan systemet identifiera definitioner som kännetecknas av mer komplexa mönster än vad ytparsningen rår på (jämför med anaforiproblemet som Meyer m.fl. (1999) påpekar ovan). (Muresan och Klavans, 2002) redovisar en precision på 87,0 % och en täckning på 75,5 % för DEFINDER jämfört med mänsklig extraktion. Barrière och Agbago (2006) beskriver TerminoWeb, en arbetsmiljö för att halvautomatiskt hitta informationsrika dokument och utvinna termer och informationsrika kontexter ur dem. Arbetet är uttryckligen inspirerat av Meyer (2001). Gränssnittet visas i figur 2.4. Dokument hämtas från webben. De dokument som är intressanta består av löpande text med en hög andel informationsmönster (är informationsrika) och en hög andel termer på området (är domänspecifika). Systemet har som ingångsdata ett antal informationsmönster och en startuppsättning termer. Denna uppsättning termer utökas iterativt dokument ger termer som ger fler dokument, med fler termer. Själva termextraktionen är statistisk, baserad på dels rå frekvens, dels weirdness. 22

23 3 Datainsamling Extraktionen av relevanta dokument förutsätter en föreskriftskorpus att extrahera ur. Ingen sådan korpus finns tillgänglig, varför ett datainsamlingssteg är nödvändigt. 3.1 Data Myndigheter är offentliga institutioner som utför statliga arbetsuppgifter. Exempel på myndigheter är Skolverket och Länsstyrelsen i Uppsala län. Föreskrifter är juridiskt bindande regler som en myndighet utfärdar på sitt område tillsammans med riksdagens lagar och regeringens förordningar ryms de under termen författningar. Detta arbete utgår från den lista över myndigheters författningssamlingar på webben som redovisas på myndigheten Vervas (Verket för förvaltningsutveckling) webbplats lagrummet.se Urval En del ställningstaganden måste göras vid datainsamlingen vad gäller de myndigheter och slags föreskrifter som ska ingå Myndigheter Vissa författningssamlingar på Vervas lista ingår inte i det här arbetet: totalt används 62 av 89 myndigheters författningssamlingar (68 %). Länsstyrelsernas föreskrifter föreföll vid utvecklingen av nedladdningsregler nästan uteslutande vara stora antal trafikregleringar och liknande rutinären som är fattiga på termdefinitioner. 21 av 89 myndigheter på listan (24 %) är länsstyrelser. Att utesluta dessa föreskrifter från arbetet sparar tid och innebär förhoppningsvis en högre koncentration intressanta dokument i insamlad data. En nackdel är naturligtvis att det inte kan uteslutas att något län ändå ger ut någon föreskrift med terminologiskt intressant information. Bland återståe myndigheters webbplatser fanns en handfull som använde JavaScript-kod för sina menyer eller nedladdningslänkar, vilket gör dem svåra att navigera programmatiskt. Därför har dessa myndigheter fått uteslutas. 1 Hela listan av författningssamlingar återfinns på rattsinformation/forfattningar/myndigheter/. 23

24 Föreskrifter och format Med kvarvarande myndigheter uppstår frågor om vilka dokument som är intressanta att ladda ner. Vilka dataformat ska accepteras? Vilket ska väljas om samma föreskrift erbjuds i flera format? Om både ändringsföreskrifter och konsoliderade föreskrifter 2 erbjuds, vilka ska då tas med? Är bilagor relevanta? Ska upphävda föreskrifter omfattas? I regelskrivandet för det här arbetet föredras konsoliderad form framför ändringsföreskrifter. Det är emellertid ofta svårt att skriva regler som lyckas skilja olika slags föreskrifter åt. I praktiken torde det inte vara något problem om samma föreskrift kommer med både konsoliderad och i delar, annat än om det ger konsumenten av systemets utdata ett falskt intryck av hög frekvens för föreskriftens termdefinitioner. Reglerna har skrivits med avsikten att bara spara ner gällande föreskrifter, men på samma sätt som med ändringsföreskrifterna är de ibland svåra att skilja ut. Antagandet här är att definitionerna i icke gällande föreskrifter kan ha blivit inaktuella. Samtidigt nämndes i sektion hur äldre texter kan definiera sådant som i nyare texter tas för självklart och att de därför kan vara av värde. Bilagor laddas inte när där det är möjligt att undvika. De kan förvisso ha definitioner, men de är inte formbundna på samma sätt som föreskrifterna och antas därför inte kunna extraheras med samma regler. Föreskrifter tillhandahålls nästan uteslutande i något eller båda av formaten HTML och PDF. Det fåtal föreskrifter som enbart tillhandahålls i Microsofts Word-format har uteslutits ur detta arbete. HTML är det XML-liknande format som webbsidor normalt representeras i. Formatet innebär att innehållets struktur markeras ut: stycken, rubriker, emfas och så vidare. Hur denna strukturerade data sedan presenteras i en webbläsare att stycken separareras av mellanrum eller att rubriker har större text är en separat fråga. HTML-dokument är textfiler som kan läsas i en vanlig textredigerare. I kontrast till detta är PDF ett presentationsformat: PDF-dokument ser i princip likadana ut i alla sammanhang. Dokument representeras som element med koordinater och visuella attribut, som fet stil. Varje rad eller rentav tecken i ett textstycke kan vara ett separat sådant element. Det finns stöd för att märka upp PDF-dokument strukturellt, så kallad taggad PDF, men det verkar inte vanligt. Vid några stickprov bland de nedladdade föreskrifterna hittades inga sådana. PDF-dokument är lagrade binärt och kan inte läsas eller skrivas utan särskild programvara. Strukturellt uppmärkta dokument är tacksamt när man programmatiskt, som i detta arbete, vill kunna skilja ut rubriker eller helt enkelt kunna läsa flerkolumnig text i rätt ordning. Med en PDF utan strukturell information måste sådant induceras från själva textinnehållet eller textens visuella attribut. I praktiken är det inte ovanligt att HTML-dokument delvis författas utifrån utsee i stället för struktur till exempel att det som borde markerats som rubrik i stället markeras som ett stycke och fetstilt. Detta blir ofta resultatet när användaren inte skriver HTML direkt utan låter det genereras av ett program, till exempel en ordbehandlare. Även i dessa fall är HTML att föredra över PDF 2 En grundföreskrift ändras genom ändringsföreskrifter, till exempel ny lydelse för paragraf 2 är.... Konsoliderade föreskrifter har alla ändringar införda. 24

25 för det här arbetet: det är mycket lättare att arbeta med ett textbaserat format än ett binärt, och textflödet är ofta bättre texten är oftare lagrad i samma följd som den visas på skärmen. Av dessa skäl laddas föreskrifter i första hand ner i HTML-format, om flera format erbjuds. För HTML-dokument är det enbart HTML-koden som sparas ner: bilder kan tänkas komplettera termdefinitioner i något enstaka fall, men att ladda ner dem bedöms innebära väldigt mycket arbete till liten praktisk nytta. 3.2 Insamling Ett program utvecklades för att enligt en uppsättning regler kunna navigera webbplatser och spara ner vissa filer. Sådana regler utvecklades för att ladda ner myndigheters föreskrifter. Hela regeluppsättningen redovisas i bilaga A.1. Reglerna skrivs i ett så kallat domänspecifikt språk (DSS; eng. domainspecific language, DSL) implementerat i programspråket Ruby 3. Detta innebär att regler kan skrivas i ett ändamålsanpassat språk men vid behov utnyttja ett Turingekvivalent språk (Ruby) med ett rikt kodbibliotek. Reglerna är skilda från koden som tolkar dem; programmet som samlar ihop föreskrifter kan enkelt användas med andra regler för andra insamlingsuppgifter. En enkel nedladdningsregel kan till exempel lyda rule 'Försvarsmaktens författningssamling (FFS)' do visit ' follow :text => /^#{RE_FFID}/ do download :extension => :pdf Angiven webbadress uppsöks, varpå alla länkar vars text matchar angivet reguljärt uttryck följs. På dessa sidor laddas alla filer med ändelsen.pdf ner. Konstanterna RE_YEAR och RE_FFID har definierats i regelfilen med vanlig Rubykod och innehåller ofta använda reguljära uttryck som motsvarar årtal ( 2000 ) respektive författningsnummer ( 1999:1395 ). Mer komplexa nedladdningsregler kan göra sådant som att fylla i och skicka sökformulär, manipulera hela sidan element för element för att ta bort länkar till upphävda föreskrifter före nedladdningen, eller ladda ner en ändringsföreskrift enbart om den inte länkar till en konsoliderad version. Eftersom data som ska samlas in alltid är ändligt uppräknelig skulle det naturligtvis räcka med så enkla regler som Ladda ner fil A. Ladda ner fil B., men mer generella regler som dessa gör regelskrivandet behagligare och mindre tidskrävande. I bästa fall kan också samma regler fånga upp nytillkomna filer av intresse vid en senare körning. Metadata sparas för varje nedladdad fil: datum och tid, regelnamn, webbadress med mera

26 4 Extraktion av dokument Innan extraktion kan ske mot den korpus som samlats in bearbetas dokumenten till ett mer enhetligt format. Därefter skiljs två icke-överlappande delmängder ut från de 4639 dokumenten: en träningsmängd som omfattar 231 dokument, eller cirka 5 % av korpusen, och en testmängd som omfattar 462 dokument, eller cirka 10 %. De bearbetade dokumenten i träningsmängden studeras. Mönster som indikerar att dokumentet innehåller termdefinitioner identifieras och formaliseras till regler som tolkas av en regelmotor. Reglerna prövas och förfinas i en iterativ process. Utdata av extraktionen redovisas i ett webbgränssnitt. 4.1 Bearbetning Viss bearbetning av nedladdade dokument krävs för att kunna skriva extraktionsregler mot relativt enhetlig data. Korpusen normaliseras i två avseen: dokumentformat och teckenkodning. Som diskuterades i sektion ovan är PDF-formatet besvärligt att arbeta med jämfört med HTML. Dessutom är det lämpligt att kunna utföra själva extraktionen mot ett a dokumentformat. Därför konverteras PDFdokumenten i korpusen till HTML. För detta används det fria verktyget pdftohtml 1. Ett PDF-dokument får naturligtvis inte nödvändigtvis semantiskt korrekt struktur bara för att det konverteras till HTML. Att inducera struktur ur PDFdokument är ett omfattande arbete där man får ta fasta på visuella ledtrådar (Gurcan m.fl., 2003). Det verkar tyvärr saknas fritt tillgängliga verktyg för detta. Alla HTML-dokument inklusive de konverterade PDF-filerna konverteras därefter till en och samma teckenkodning (UTF-8). Entiteter, som ö, görs om till de tecken som de representerar. Fördelen med normaliserad teckenkodning är att extraktionsreglerna inte behöver ta hänsyn till de olika sätt som till exempel ett ö kan skrivas 2. För att fastställa källteckenkodningen används i första hand webbserverns 1 Flaggorna -noframes -c -i används för att få utdata i en a HTML-fil med komplex layout och utan bilder. 2 Bland annat ö, ö och ö. Faktum är att ett ö kan skrivas på flera sätt även i UTF-8 som ett a tecken eller som kombinationen av o och. Det har inte funnits tid att fördjupa sig i detta, men i praktiken verkar den normalisering som görs tillräcklig. 26

27 metadata 3 och i andra hand metadata inuti själva dokumentet 4. Som sista utväg görs en uppskattning med hjälp av kodbiblioteket chardet Analys Dokumenten i träningsmängden lästes igenom manuellt. Indikatorer på definitioner noterades och generaliserades. Dessa formuleras sedan som regler. Resultatet av att tillämpa dessa regler på träningsmängden avslöjar brister och ger upphov till förbättrade regler. På detta sätt är regelskrivandet en iterativ process snarlik den Meyer m.fl. (1999) använder för att hitta informationsmönster för termextraktion (se sektion ). Myndigheters föreskrifter är till viss del formbundna. Handboken DS 1998:43, Myndigheternas föreskrifter (Statsrådsberedningen, 1998), menar att definitioner bör komma i ett särskilt definitionsavsnitt. Som exempel ges (i Statsrådsberedningen (1998, s. 87)) Definitioner 2 Med skors huvudbeståndsdelar avses sådana delar som beskrivs i bilaga 2. Detta utvecklas vidare med att [f]acktermer... skall förklaras.... Man kan... antingen ha en inledande bestämmelse med definitioner eller ordförklaringar eller en särskild fackordlista (Statsrådsberedningen, 1998, s. 110). I övrigt sägs det att presens skall... användas i definitioner (med x avses y) (Statsrådsberedningen, 1998, s. 105), och exemplet så är fallet t.ex. i definitioner (Med tobaksvara förstås en produkt som till någon del innehåller tobak) (Statsrådsberedningen, 1998, s. 96) ges i samband med ett annat påbud. Även om dessa till största delen är rekommationer verkar de stämma ganska väl överens med föreskrifterna i träningsmängden. Definitionsavsnitt ofta med rubriken Definitioner är inte ovanliga, och särskilt mönstret med term avses definition är mycket vanligt förekommande. En princip som följdes vid analysen var att hellre göra mönstren för generella än för snäva; i sin diskussion om användarvänlighet inom termextraktion påpekar Thurmair (2003) hur det i regel är lättare att sortera bort felaktiga träffar än att söka upp sådana som aldrig kom med. I utvärderingstermer eftersträvas hög täckning även om det blir på bekostnad av precisionen. 4.3 Regler Somliga av de mönster som identifieras är informationsmönster av det slag Meyer m.fl. (1999) talar om, det vill säga förutsägbara mönster som indikerar någon begreppsrelation. Ett mycket vanligt mönster för definitioner i föreskrifter har till exempel visat sig vara med... avses Exempelvis Content-Type: text/html; charset=utf-8. 4 Exempelvis <meta http-equiv="content-type" content="text/html;charset=utf-8">

28 P Text i B stil. fet, I kursiv Figur 4.1: Trädrepresentation av HTML-koden <p>text i <b>fet, <i>kursiv</i></b> stil.</p>. P, B och I är elementnoder; övriga är textnoder. Andra mönster som används för att extrahera relevanta dokument kan ses som en slags metainformationsmönster mönster som indikerar informationsmönster. Rubriken Definitioner ingår själv inte i någon begreppsrelation, men mellan denna rubrik och nästa (på samma eller högre rubriknivå) kan till exempel tabellrader i två kolumner ses som paralingvistiska informationsmönster för definitionsrelationen. Regelmotorn i sig är enkel. Den itererar över dokument och tillämpar reglerna på varje. När en regel uppfylls informerar den regelmotorn om vilka element i dokumentet som ska plockas ut. Avslutningsvis genereras ett webbgränssnitt som presenterar sådana träffar gulmarkerade i dokumentet och listade i en förteckning. Reglerna tillhandahålls dokumentet genom HTML-parsern Hpricot 6 som representerar dokument som träd. Ett exempel på HTML i trädrepresentation ges i figur 4.1. Totalt skrevs fyra regler. Dessa redovisas i bilaga A.2. Gemensamt för alla regler är att de använder sig av reguljära uttryck som är kastokänsliga (eng. case insensitive) och där jokertecken får matcha flera rader (flaggorna i och m i Ruby). Vidare används det reguljära uttrycket \s+ (ett eller flera blanktecken) mellan löpord i stället för mellanslag, för att även motsvara till exempel radbrytningar eller radbrytningar följda av mellanslag då ett sådant bruk av blanktecken inte är ovanligt i HTML-dokument Sökning i löptext Tre av reglerna söker i hela dokumentets textmassa. Detta är inte helt trivialt eftersom det finns två nivåer att röra sig mellan: dels texten man ser i sin webbläsare, dels den bakomliggande trädrepresentationen. En utökning av regelmotorn hanterar detta så att man i reglerna kan koncentrera sig på texten man ser och få det transparent översatt till extraktion av element i trädet. Reglerna består av mönster uttryckta som reguljära uttryck. Även antimönster kan anges för att utesluta vissa motexempel

29 Avses/menas/förstås Den första regeln är avsedd att hitta definitioner som i denna författning avses med term definition eller med term menas definition. Faktum är att det reguljära uttrycket enbart kräver något av löporden avses, menas och förstås ; om det sedan föregås eller följs av med något inkluderas även detta, men det är inte nödvändigt. Ett anti-mönster förbjuder t.ex. som avses och som inte avses dock inte när det fortsätter som avses med. Dessutom utesluts avses ha och likadant för bli, börja och genomföras Följande begrepp/definitioner/... Den andra regeln täcker ett stort antal uttryck i stil med här används ordet ord, i denna föreskrift förekommer följande beteckningar och i detta avsnitt används följande begrepp med nedan angiven innebörd. Förleden som i detta avsnitt används och efterleden som med nedan angiven innebörd är inte nödvändiga när själva kärnan är följande begrepp/beteckningar/definitioner/ordförklaringar/termer. En variant på mönstret byggs kring nyckelord i bestämd form singularis, som i denna föreskrift används ordet/begreppet/termen/definitionen ord. I det fallet krävs både förledet och att nyckelordet följs av blanktecken och sen något löpord Definitionen/definitionerna/termen/... Den sista löptextregeln fångar helt enkelt upp olika böjningsformer av orden definition, term och begrepp. Regeln har låg precision, men utan den blir täckningen lidande. Även sådana träffar som inte är definitioner kan ha intressanta anmärkningar. Två anti-mönster finns: ett som motsvarar uttrycket faller (inte) under definitionen och ett där nyckelordet föregås av redogöra för (innebörden av) Sökning i rubriker Den fjärde och sista regeln söker inte i hela dokumentets text, utan enbart i sådana element som används för rubriker. Utöver de element, h1 h6, som är avsedda för rubriker räknas även andra som i praktiken används i dokumenten: div, span, td, th, p, b, strong, i och em. Textinnehållet i dessa element matchas mot ett reguljärt uttryck som innehåller enbart definitioner/termer/begrepp/ordlista, eventuellt föregånget av löpord och eller följt av och löpord. Hela det uttrycket får också föregås av sådant som 1. eller 2. kap och efterföljas av vad som helst inom parenteser. 4.4 Webbgränssnitt När extraktionen är klar redovisas resultatet i ett webbgränssnitt (figur 4.2) 7. 7 Webbgränssnittet för testmängdens utdata finns fullt fungerande på uu.se/~henrikn/termyn/utdata/. 29

30 Figur 4.2: Webbgränssnitt för extraktionsresultat. Samtliga dokument listas till vänster under rubrikerna Extraherade dokument och Övriga dokument. För varje extraherat dokument listas alla regelträffar med regelnamn och den text som matchades av regeln. Dokumenten visas till höger. Varje regelträff är en hyperlänk till den platsen i dokumentet. Text som matchats av regler är gulmarkerad. Länken Meta vid varje dokument i listan visar metadata om dokumentet: nedladdningsdatum, nedladdningsregelns namn (det vill säga myndighetens namn) och länkar till såväl originaldokumentet (den webbadress som dokumentet hade vid nedladdningstillfället) och till det hänvisande dokumentet (den sida som hade nedladdningslänken på sig). Länken till originaldokumentet är användbar till exempel om ett PDF-dokument inte kunnat konverteras korrekt; det hänvisande dokumentet kan innehålla ytterligare metadata. 30

31 5 Utvärdering av dokumentextraktion De dokument som används i utvärderingen samlades in på förmiddagen 9 maj 2007 enligt de regler som redovisas i bilaga A.1. Av totalt 4639 insamlade dokument valdes 462 dokument (cirka 10 %) slumpmässigt ut för utvärdering den så kallade testmängden. Det som utvärderas i detta avsnitt är extraktionen av dokument; själva nedladdningen utvärderas inte. De regler som utvecklats för Termyn tillämpades på testmängden. Utdata jämförs med den så kallade guldstandarden som innehåller data från manuell dokumentextraktion av två terminologer. Denna redovisas i nästa sektion, 5.1. I sektion 5.2 jämförs sedan systemets klassificering med guldstandarden. 5.1 Guldstandard Två personer terminologer vid TNC har oberoe av varandra manuellt fått klassificera dokumenten i testmängden. Dokumenten klassificerades efter huruvida de ansågs innehålla definitioner av termer 1. En terminolog ( A ) har klassificerat samtliga 462 dokument; den andra ( B ) har enbart haft möjlighet att klassificera de första 253 (drygt halva testmängden, 5,5 % av insamlade dokument). Därför utvärderas främst de 253 dokument som båda har klassificerat. Testmängden valdes slumpmässigt, men inom denna presenterades dokumenten för terminologerna i insamlingsordning, vilket dessvärre innebär att de dokument B klassificerat och därmed den mängd dokument som båda klassificerat inte fullt ut är ett slumpmässigt urval. Av denna anledning ska de delar av utvärderingen som rör dessa dokument inte ses som säkra. Den totala mängd dokument som A klassificerat är däremot slumpmässig. Svarsalternativen var ja (innehåller definitioner av termer), nej och kan inte avgöra. Sistnämnda alternativ var avsett att undvika godtyckliga svar i svåravgjorda fall. Detta alternativ har dock ingen motsvarighet i Termyns binära klassificering. Därför har dokument med detta svar 2 helt enkelt räknats bort inför utvärderingen. Av de dokument som båda klassificerat återstår då 242 stycken. Av A:s 462 dokument kvarstår 456 och av B:s 253 dokument kvarstår 246. Klassificeringen skedde i ett webbgränssnitt (se figur 5.1) utvecklat för ändamålet. 1 Instruktionerna är inte fullständigt entydiga, men det vore inte lämpligt att ge mer exakta kriterier för vad som ska ingå och inte; själva bedömningen av vad som ska tas med är ju central klassificeringar; 11 stycken eller 4,4 % av de gemensamma dokumenten. 31

32 Figur 5.1: Webbgränssnitt för manuell dokumentklassificering. I webbgränssnittet fick terminologerna se PDF-dokument i original, inte konvertererade till HTML. Tanken var att bespara dem eventuella konverteringsproblem 3. HTML-dokument visades i samma format som Termyn får dem tillhanda, det vill säga normaliserade med avsee på teckenkodning Kappa Två slumpmässiga utvärderare, som var och en väljer mellan två lika sannolika alternativ för varje dokument, skulle klassificera 50 % av dokumenten likadant. Carletta (1996) menar att rena enighetssiffror därför inte är ett gott mått på överensstämmelse mellan klassificerare: graden av enighet tar ingen hänsyn till vad slumpen ger. Korrespondensen mellan klassificeringar mäts i stället ofta med så kallad kappastatistik (Cohen, 1960; Passonneau, 1997). Kappastatistik ger en koefficient på en skala mellan 1 och 1, där 1 representerar total oenighet, 0 lika stor enighet som slumpen ( tillfällig enighet ) och 1 total enighet. Formeln kan uttryckas κ = observerad enighet tillfällig enighet 1 tillfällig enighet (4) Värdet beräknades på följande data: 3 Till exempel när texten är lagrad som en stor bild (inte ovanligt för äldre föreskrifter som scannats in från pappersförlaga), när dokumentet är kopieringsskyddat (och därmed konverteringsskyddat) eller när en särdeles komplex layout leder till att HTML-dokumentet visar flera lager text på samma skärmutrymme. 32

Terminologins terminologi: begreppsdiagrammen

Terminologins terminologi: begreppsdiagrammen Terminologins terminologi: sdiagrammen Förord Terminologins terminologi: sdiagrammen är en samling av sdiagram som åskådliggör relationer mellan alla som finns i Terminologins terminologi: ordlistan. Förklaringar

Läs mer

Utvärdering av manuell och automatisk termextraktion

Utvärdering av manuell och automatisk termextraktion Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 24 januari 2008 Utvärdering av manuell och automatisk termextraktion Mirza Škornja Handledare: Beáta Megyesi,

Läs mer

Process för terminologiarbete

Process för terminologiarbete Ledningssystem Rutin 2014-02-03 1(6) Avdelning R Regler och behörighet Upprättad av Emma Leeb-Lundberg Gäller från och med 2011-11-10 Process för terminologiarbete Typ av process Process för terminologiarbetet

Läs mer

Definition och begrepp Introduktion i det terminologiska angreppssättet

Definition och begrepp Introduktion i det terminologiska angreppssättet Definition och begrepp Introduktion i det terminologiska angreppssättet Anna-Lena Bucher Terminologicentrum TNC Workshop 2: Nationell strategi för skydd av samhällsviktig verksamhet 15 februari 2011 Presentationens

Läs mer

Socialstyrelsens handledning för arbete med begrepp och termer

Socialstyrelsens handledning för arbete med begrepp och termer Socialstyrelsens handledning för arbete med begrepp och termer Denna publikation skyddas av upphovsrättslagen. Vid citat ska källan uppges. För att återge bilder, fotografier och illustrationer krävs upphovsmannens

Läs mer

Spri rapport Hälso- och sjukvårdens utvecklingsinstitut nr 481. Metoder och principer i terminologiarbetet

Spri rapport Hälso- och sjukvårdens utvecklingsinstitut nr 481. Metoder och principer i terminologiarbetet Spri rapport Hälso- och sjukvårdens utvecklingsinstitut nr 481 Metoder och principer i terminologiarbetet Metoder och principer i terminologiarbetet 1 HÄLSO- OCH SJUKVÅRDENS UTVECKLINGSINSTITUT Spri, som

Läs mer

Bilddatabaser och digitalisering - plattform för ABM-samverkan

Bilddatabaser och digitalisering - plattform för ABM-samverkan http://abm.kb.se Bilddatabaser och digitalisering - plattform för ABM-samverkan Aktivitet 2: DEFINIERA BEGREPP PROJEKTDIREKTIV Övergripande syfte: att påbörja bygget av en gemensam plattform för samverkan

Läs mer

EU-terminologi. Terminologiska utmaningar i arbetet med EU-texter

EU-terminologi. Terminologiska utmaningar i arbetet med EU-texter EU-terminologi Terminologiska utmaningar i arbetet med EU-texter Helsingfors och Vasa, 14-15 november 2013 Presentationens upplägg Vad är EU? Vad är EU-texter? Vad är EU-översättning? Vad har terminologin

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Socialtjänst och terminologi

Socialtjänst och terminologi Socialtjänst och terminologi Socialstyrelsen klassificerar sin utgivning i olika dokumenttyper. Detta är ett Underlag från experter. Det innebär att det bygger på vetenskap och/eller beprövad erfarenhet

Läs mer

Terminologiska undersökningstyper. Terminologisk metaforskning

Terminologiska undersökningstyper. Terminologisk metaforskning 1 Anita Nuopponen Terminologisk analys som forskningsmetod Den teori och de analysmetoder som har utvecklats för terminologiarbetet kunde till en stor del också ses som en del av vilken som helst forskningsprocess.

Läs mer

Socialstyrelsens handledning för arbete med begrepp och termer

Socialstyrelsens handledning för arbete med begrepp och termer Socialstyrelsens handledning för arbete med begrepp och termer Citera gärna Socialstyrelsens rapporter och uppge källan. Bilder, fotografier och illustrationer är skyddade av upphovsrätten. Det innebär

Läs mer

Easyresearch - Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete. Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete

Easyresearch - Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete. Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete Page 1 of8 ~ Socialstyrelsen Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete Externremiss, begrepp inom området patientsäkerhet och systematiskt kvalitetsarbete Socialstyrelsen ansvarar

Läs mer

Så här använder du begreppsdiagram i termbanken

Så här använder du begreppsdiagram i termbanken Dokumentbeteckning 2016-04-28 Dnr 1.3-8718/2015 1(5) Statistik och jämförelser Carl Strömbäck carl.stromback@socialstyrelsen.se Så här använder du begreppsdiagram i termbanken Som komplement till termbankens

Läs mer

Nationell Informationsstruktur 2015:1. Bilaga 7: Arkitektur och metodbeskrivning

Nationell Informationsstruktur 2015:1. Bilaga 7: Arkitektur och metodbeskrivning Nationell Informationsstruktur 2015:1 Bilaga 7: Arkitektur och metodbeskrivning Innehåll Nationell informationsstruktur arkitektur och metod... 3 Standarder inom informatik... 3 NI relaterat till ISO 42010...

Läs mer

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter. Sid 1 (6) Skriva för webb Att skriva för webben handlar om att skriva kort och enkelt för att fånga läsaren. Relevant innehåll Fundera över vad läsaren vill veta. Skriv för målgruppen. Sovra i materialet.

Läs mer

Skrivreglerna är hämtade från ISO 704 Terminology work Principles and methods.

Skrivreglerna är hämtade från ISO 704 Terminology work Principles and methods. Avdelningen för regler och behörighet Informationsblad Informationsblad terminologiremiss Vad är en definition? En definition är en språklig beskrivning som ska avgränsa begreppet mot relaterade begrepp.

Läs mer

Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete

Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete Terminologiremiss patientsäkerhet och systematiskt kvalitetsarbete Externremiss, begrepp inom området patientsäkerhet och systematiskt

Läs mer

Manual HSB Webb brf 2004 03 23

Manual HSB Webb brf 2004 03 23 TERMINOLOGI I Polopoly används ett antal grundläggande begrepp för publicering och hantering av information, eller innehåll som det också benämns. Nedan följer en kort genomgång av denna grundläggande

Läs mer

Bakgrund till förslagen i remissen. Definitionen av överkänslighet har förtydligats.

Bakgrund till förslagen i remissen. Definitionen av överkänslighet har förtydligats. Bilaga 1 2015-09-16 Bakgrund till förslag i terminologiremiss Bakgrund till förslagen i remissen Definitionerna för observandum, varningsinformation och överkänslighet har reviderats. När det gäller observandum

Läs mer

Arkitektur och metodbeskrivning. Nationell informationsstruktur

Arkitektur och metodbeskrivning. Nationell informationsstruktur Arkitektur och metodbeskrivning Nationell informationsstruktur Nationell informationsstruktur arkitektur och metodbeskrivning Nationell informationsstruktur (NI) ska bestå av sammanhängande modeller, vilket

Läs mer

Så här använder du termbanken

Så här använder du termbanken Lathund 2014-05-055 Dnr 1.3-25607/2014 1(5) Regler och behörighet Emma Leeb-Lundberg emma.leeb-lundberg@socialstyrelsen.se Så här använder du termbanken Sök i termbanken På ingångssidan kan du söka i termbanken

Läs mer

Nationell informationsstruktur 2016:1. Bilaga 7: Arkitektur och metodbeskrivning

Nationell informationsstruktur 2016:1. Bilaga 7: Arkitektur och metodbeskrivning Nationell informationsstruktur 2016:1 Bilaga 7: Arkitektur och metodbeskrivning Nationell informationsstruktur arkitektur och metodbeskrivning Nationell informationsstruktur (NI) ska bestå av sammanhängande

Läs mer

Kort om World Wide Web (webben)

Kort om World Wide Web (webben) KAPITEL 1 Grunder I det här kapitlet ska jag gå igenom allmänt om vad Internet är och vad som krävs för att skapa en hemsida. Plus lite annat smått och gott som är bra att känna till innan vi kör igång.

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.

Läs mer

Riktlinjer för Försäkringskassans begreppskatalog

Riktlinjer för Försäkringskassans begreppskatalog Försäkringsprocesser RIKTLINJER 2010-01-15 Ändringsdatum Serienummer Version 2010:01 1.0 1 (10) + Riktlinjer för Försäkringskassans begreppskatalog Försäkringsprocesser RIKTLINJER 2010-01-15 Ändringsdatum

Läs mer

Resultat av remiss för begreppet standardiserad vårdplan

Resultat av remiss för begreppet standardiserad vårdplan 2011-11-23 Dnr 27796/2011 1(8) Resultat av remiss för begreppet standardiserad vårdplan Förslag på definition och term i denna remiss är resultatet av det terminologiarbete som var en del av projektet

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Om ämnet Engelska. Bakgrund och motiv

Om ämnet Engelska. Bakgrund och motiv Om ämnet Engelska Bakgrund och motiv Ämnet engelska har gemensam uppbyggnad och struktur med ämnena moderna språk och svenskt teckenspråk för hörande. Dessa ämnen är strukturerade i ett system av språkfärdighetsnivåer,

Läs mer

Metoder i det nationella fackspråket för vård och omsorg

Metoder i det nationella fackspråket för vård och omsorg Metoder i det nationella fackspråket för vård och omsorg Citera gärna Socialstyrelsens rapporter, men glöm inte att uppge källan. Bilder, fotografier och illustrationer är skyddade av upphovsrätten. Det

Läs mer

Kursbeskrivning. Fackspråk och terminologi, AN 7,5 hp (TTA606) Masterprogram i översättning, 120 hp. Tolk- och översättarinstitutet (TÖI)

Kursbeskrivning. Fackspråk och terminologi, AN 7,5 hp (TTA606) Masterprogram i översättning, 120 hp. Tolk- och översättarinstitutet (TÖI) Tolk- och översättarinstitutet (TÖI) Kursbeskrivning Fackspråk och terminologi, AN 7,5 hp (TTA606) Masterprogram i översättning, 120 hp Gäller vt 2018. Innehåll och förväntade studieresultat Kursen ger

Läs mer

Automatisk textsammanfattning

Automatisk textsammanfattning Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem

Läs mer

Lathund för studenter

Lathund för studenter Uppdaterad 2005-09-07 Lathund för studenter vid inläggning av uppsatser i Xerxes Xerxes: http://theses.lub.lu.se/undergrad/ INLÄGGNING AV UPPSATS I XERXES 1. Inloggning Gå in i Publicera i Xerxes i menyn

Läs mer

"Distributed Watchdog System"

Distributed Watchdog System Datavetenskap Emma Henriksson Ola Ekelund Oppositionsrapport på uppsatsen "Distributed Watchdog System" Oppositionsrapport, C-nivå 2005 1 Sammanfattande omdöme på exjobbet Projektet tycks ha varit av

Läs mer

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Litteraturstudie Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Vad är en litteraturstudie? Till skillnad från empiriska studier söker man i litteraturstudier svar på syftet

Läs mer

Rikstermbanken. Alla termer på ett ställe. Karin Dellby. Terminologicentrum TNC. 29 november 2014. Västra vägen 7 B 169 61 Solna

Rikstermbanken. Alla termer på ett ställe. Karin Dellby. Terminologicentrum TNC. 29 november 2014. Västra vägen 7 B 169 61 Solna Rikstermbanken Alla termer på ett ställe Karin Dellby Terminologicentrum TNC 29 november 2014 Rikstermbanken Hur kom den till? finansiering, uppdrag innehåll Användning Förvaltning Framtid Hur kom Rikstermbanken

Läs mer

Resultat av remiss för begrepp inom området hjälpmedel

Resultat av remiss för begrepp inom området hjälpmedel 2018-09-21 Dnr 4.5-27353/2018 1(5) Resultat av remiss för begrepp inom området hjälpmedel Begreppen i denna remiss är resultatet från terminologiarbete kring begreppet hjälpmedel för vård och behandling.

Läs mer

Arkitektur och Regelverk Definition av kodverk och klassifikation. Version 1.0

Arkitektur och Regelverk Definition av kodverk och klassifikation. Version 1.0 Arkitektur och Regelverk Definition av kodverk och klassifikation Version 1.0 Innehållsförteckning 1. Inledning... 3 2. Definitioner... 3 Referenser och underlag... 5 Revisionshistorik Version, datum Författare

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Varför skäms vi över att inte kunna uttrycka oss på engelska MEN skryter över att vi inte kan hitta rätt ord på svenska?

Varför skäms vi över att inte kunna uttrycka oss på engelska MEN skryter över att vi inte kan hitta rätt ord på svenska? Precis! Absolut! Exakt! Ingenjörens behov av korrekt terminologi Varför skäms vi över att inte kunna uttrycka oss på engelska MEN skryter över att vi inte kan hitta rätt ord på svenska? Åsa Holmér, Terminologicentrum

Läs mer

Liten termskola för teknikinformatörer

Liten termskola för teknikinformatörer Liten termskola för teknikinformatörer Workshop FTI-konferensen våren 2013 Åsa Holmér Terminologicentrum TNC 13 mars 2013 Terminologicentrum TNC är det centrala organet i Sverige för terminologi och fackspråk

Läs mer

Svensk nationell datatjänst, SND BAS Online

Svensk nationell datatjänst, SND BAS Online Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata

Läs mer

Stadieväxling Utmaningar för en nationell terminologi(in)samling

Stadieväxling Utmaningar för en nationell terminologi(in)samling Stadieväxling Utmaningar för en nationell terminologi(in)samling Claudia Dobrina, Henrik Nilsson, Peter Svanberg Terminologicentrum TNC Nordterm 2011 Uppläggning Rikstermbanken och dess sekretariat Rikstermbanken

Läs mer

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1 Lexikal semantik Lingvistik 1 Uppsala universitet 1 Nyckelord idag Semantiska egenskaper Komponentanalys Prototypteori Relationer mellan ord Kognitiv lexikal semantik Uppsala universitet 2 Semantiska egenskaper

Läs mer

Titel på examensarbetet. Dittnamn Efternamn. Examensarbete 2013 Programmet

Titel på examensarbetet. Dittnamn Efternamn. Examensarbete 2013 Programmet Titel på examensarbetet på två rader Dittnamn Efternamn Examensarbete 2013 Programmet Titel på examensarbetet på två rader English title on one row Dittnamn Efternamn Detta examensarbete är utfört vid

Läs mer

Nationell informationsstruktur 2015:1 Bilaga 1: Läsanvisning till modellerna

Nationell informationsstruktur 2015:1 Bilaga 1: Läsanvisning till modellerna Nationell informationsstruktur 2015:1 Bilaga 1: Läsanvisning till modellerna Innehåll Inledning... 3 Ord och uttryck... 4 Processmodeller... 5 Vad är en processmodell?... 5 Hur används processmodeller

Läs mer

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Arv Fundamental objekt-orienterad teknik arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Programmeringsmetodik -Java 165 Grafisk respresentation: Arv

Läs mer

Stockholm den 19 oktober 2015

Stockholm den 19 oktober 2015 R-2015/1084 Stockholm den 19 oktober 2015 Till FAR Sveriges advokatsamfund har genom remiss den 2 juli 2015 beretts tillfälle att avge yttrande över Nordiska Revisorsförbundets förslag till Nordisk standard

Läs mer

Terminologi for dummies

Terminologi for dummies begrepp Terminologi for dummies term referent Henrik Nilsson Terminologicentrum TNC Språk och vetenskap SLUs språkdag definition 2014-10-13 Terminologi for dummies For Dummies is an extensive series of

Läs mer

Kursbeskrivning. Fackspråk och terminologi, AN 7,5 hp (TTA606) Masterprogram i översättning, 120 hp. Tolk- och översättarinstitutet (TÖI)

Kursbeskrivning. Fackspråk och terminologi, AN 7,5 hp (TTA606) Masterprogram i översättning, 120 hp. Tolk- och översättarinstitutet (TÖI) Tolk- och översättarinstitutet (TÖI) Kursbeskrivning Fackspråk och terminologi, AN 7,5 hp (TTA606) Masterprogram i översättning, 120 hp Gäller vt 2017. Innehåll och förväntade studieresultat Kursen ger

Läs mer

Business research methods, Bryman & Bell 2007

Business research methods, Bryman & Bell 2007 Business research methods, Bryman & Bell 2007 Introduktion Kapitlet behandlar analys av kvalitativ data och analysen beskrivs som komplex då kvalitativ data ofta består av en stor mängd ostrukturerad data

Läs mer

Convertus - kursplaneöversättning

Convertus - kursplaneöversättning Utbildningsavdelningen 2017-10-25 Convertus - kursplaneöversättning Innehåll Om Convertus kursplaneöversättning... 2 Så fungerar det... 2 Tre olika användarroller... 2 Arbetsgång... 3 Filnamn... 3 1. Beställa

Läs mer

Word-guide Introduktion

Word-guide Introduktion Word-guide Introduktion På det kognitionsvetenskapliga programmet kommer du läsa kurser inom flera olika vetenskapsområden och för varje vetenskapsområde finns ett speciellt sätt att utforma rapporter.

Läs mer

Resultat av remiss för begreppet brukaret

Resultat av remiss för begreppet brukaret 2013-04-09 1(10) Resultat av remiss för begreppet brukaret Socialstyrelsen rekommenderar brukare som samlande begrepp för alla de som får individuellt behovsprövade insatser från socialtjänsten, tillsammans

Läs mer

ATT GÖRA WEBBSIDOR. Frivillig labb

ATT GÖRA WEBBSIDOR. Frivillig labb Numerisk analys och datalogi KTH 100 44 Stockholm Kerstin Frenckner, tel 790 7143, e-post kfrenck@nada.kth.se 2D1339 Programkonstruktion Hösten 2001 Datorintroduktion Frivillig labb ATT GÖRA WEBBSIDOR

Läs mer

Resultat av remiss för begrepp inom området patientsäkerhet och systematiskt kvalitetsarbete

Resultat av remiss för begrepp inom området patientsäkerhet och systematiskt kvalitetsarbete 2017-01-25 Dnr 4.2.1-1958/2017 1(9) Resultat av remiss för begrepp inom området patientsäkerhet och systematiskt kvalitetsarbete Begreppen i denna remiss är resultatet från terminologiarbete i ett projekt

Läs mer

FPA-termer för kommunikation och navigation

FPA-termer för kommunikation och navigation FPA-termer för kommunikation och navigation Carita Bjon Nordterm 2011 Vasa 8.6.2011 FPA-termer för kommunikation och navigation 2 o o FPA grundades år 1937 som en pensionsanstalt som enbart ansvarade för

Läs mer

Göra lika i båda leden

Göra lika i båda leden Modul: Algebra Del 6: Sociomatematiska normer Göra lika i båda leden Cecilia Kilhamn, Göteborgs Universitet och Lucian Olteanu, Linnéuniversitetet Ordet algebra kommer från det arabiska ordet al-djabr

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Titel Mall för Examensarbeten (Arial 28/30 point size, bold) Titel Mall för Examensarbeten (Arial 28/30 point size, bold) SUBTITLE - Arial 16 / 19 pt FÖRFATTARE FÖRNAMN OCH EFTERNAMN - Arial 16 / 19 pt KTH ROYAL INSTITUTE OF TECHNOLOGY ELEKTROTEKNIK OCH DATAVETENSKAP

Läs mer

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 1 Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

» RSS - Bygg din egen RSS!

» RSS - Bygg din egen RSS! 1 of 5 29.4.2006 18:46» RSS - Bygg din egen RSS! Sett en orange liten skylt med vita bokstäver som antingen sagt XML eller RSS nyligen utan att direkt koppla varför den finns där? Du är antagligen inte

Läs mer

Enhetlig terminologi. För fackområdet samhällsskydd och beredskap

Enhetlig terminologi. För fackområdet samhällsskydd och beredskap Enhetlig terminologi För fackområdet samhällsskydd och beredskap Du får gärna citera Socialstyrelsens texter om du uppger källan, exempelvis i utbildningsmaterial till självkostnadspris, men du får inte

Läs mer

Pass 2: Datahantering och datahanteringsplaner

Pass 2: Datahantering och datahanteringsplaner Pass 2: Datahantering och datahanteringsplaner Checklista för datahanteringsplaner Att utveckla en datahanteringsplan för ett projekt är inte alltid en enkel uppgift. Det finns många detaljer som man åtminstone

Läs mer

Ordförråd och Ordbildning

Ordförråd och Ordbildning Ordförråd och Ordbildning Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Språkstruktur! Fonologi - fonemens kombinationer till morfem! fonem - minsta betydelseskiljande

Läs mer

Tillgänglighet till terminologi svenska myndigheters ansvar

Tillgänglighet till terminologi svenska myndigheters ansvar Tillgänglighet till terminologi svenska myndigheters ansvar Magnus Merkel och Henrik Nilsson Linköpings universitet/fodina Language Technology och Terminologicentrum TNC magnus.merkel@fodina.se, henrik.nilsson@tnc.se

Läs mer

Tillämpningsanvisningar

Tillämpningsanvisningar Tillämpningsanvisningar Inledning Denna anvisning syftar till att ge ett stöd i tillämpningen av den nationella informationsstrukturen (NI). NI används dels för att skapa eller återanvända strukturerad

Läs mer

Så här använder du begreppsdiagram i termbanken

Så här använder du begreppsdiagram i termbanken Dokumentbeteckning 2015-03-24 Dnr 1.3-8718/2015 1(6) Regler och behörighet Emma Leeb-Lundberg emma.leeb-lundberg@socialstyrelsen.se Så här använder du begreppsdiagram i termbanken Som komplement till termbankens

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Resultat av terminologiremiss om distanskontakt och relaterade begrepp

Resultat av terminologiremiss om distanskontakt och relaterade begrepp 2017-03-15 Dnr 32041/2016 1(5) Resultat av terminologiremiss om och relaterade begrepp Begreppen i denna sammanställning är resultatet av ett terminologiarbete. Begreppen har förankrats dels internt på

Läs mer

Inledande exempel. Levinson och informationsstruktur. Vad är informationsstruktur? Informationsstruktur och pragmatik

Inledande exempel. Levinson och informationsstruktur. Vad är informationsstruktur? Informationsstruktur och pragmatik Pragmatik VT06 Informationsstruktur Informativitet och koherens i dialog och diskurs Inledande exempel 1. Vad gör du? Jag tittar ut genom fönstret 2. Tittar du in eller ut genom fönstret? Jag tittar ut

Läs mer

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående MATEMATISKA INSTITUTIONEN STOCKHOLMS UNIVERSITET Christian Gottlieb Gymnasieskolans matematik med akademiska ögon Induktion Dag 1 1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta

Läs mer

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Handicom. Symbol for Windows. Encyklopedi. Version 3.4 Handicom Symbol for Windows Encyklopedi Version 3.4 Handicom, Nederländerna/Frölunda Data AB 2009 Innehåll Installation och licenser...2 1. Inledning...4 1.1 Vad är Encyklopedi?...4 2. Encyklopedis huvudmeny...5

Läs mer

Tillgänglighetskrav på interaktion och design Dessa krav baseras på WCAG 2.0,

Tillgänglighetskrav på interaktion och design Dessa krav baseras på WCAG 2.0, Tillgänglighetskrav på interaktion och design Dessa krav baseras på WCAG 2.0, http://www.w3.org/tr/wcag20/ UPPDRAGSGIVARE: Malmö stad VÅR REFERENS: Andreas Cederbom 08-555 770 64 andreas.cederbom@funkanu.se

Läs mer

Vetenskapligt skrivande. Några råd inför det vetenskapliga skrivandet

Vetenskapligt skrivande. Några råd inför det vetenskapliga skrivandet Vetenskapligt skrivande Några råd inför det vetenskapliga skrivandet Språkverkstaden www.sprakverkstaden.uu.se Engelska parken. Humanistiskt centrum Thunbergsvägen 3 L Rådgivning i svenska och engelska.

Läs mer

Analys av BI-system och utveckling av BIapplikationer

Analys av BI-system och utveckling av BIapplikationer Computer Science Fredrik Nilsson, Jonas Wånggren Daniel Strömberg Analys av BI-system och utveckling av BIapplikationer Opposition Report, C/D-level 2005:xx 1 Sammanfattat omdöme av examensarbetet Vi tycker

Läs mer

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA Universitetsbiblioteket Senast ändrad: 2016-12-12 2 Innehållsförteckning Linköpings universitetsbibliotek

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

En ansats till behovsstyrd applikationsutveckling

En ansats till behovsstyrd applikationsutveckling Datavetenskap Opponenter: Daniel Mester Pirttijärvi Hampus Skystedt Respondent: Johan Björlin En ansats till behovsstyrd applikationsutveckling Oppositionsrapport, C-nivå 2011:05 1 Sammanfattat omdöme

Läs mer

Introduk+on +ll programmering i JavaScript

Introduk+on +ll programmering i JavaScript Föreläsning i webbdesign Introduk+on +ll programmering i JavaScript Rune Körnefors Medieteknik 1 2012 Rune Körnefors rune.kornefors@lnu.se Språk Naturliga språk Mänsklig kommunika+on T.ex. Svenska, engelska,

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Riktlinjer för styrdokument

Riktlinjer för styrdokument Riktlinjer för styrdokument Fastställt av: Kommunfullmäktige Datum: 2014-12-15, 135 Diarienummer: 2014-000378 För revidering ansvarar: Kommunchef För eventuell uppföljning och tidplan ansvarar: Kommunchef

Läs mer

Terminologi. RDK Frösundavik 2011-03-25. Magnus Fogelberg

Terminologi. RDK Frösundavik 2011-03-25. Magnus Fogelberg Terminologi RDK Frösundavik 2011-03-25 Magnus Fogelberg Vem är jag? Verksamhetschef neurologi, rehabiliteringsmedicin och sömnmedicin Skaraborgs sjukhus Ordförande i Läkaresällskapets språkkommitté SIS

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

LÄRARHANDLEDNING TILLGÄNGLIGA WEBBSIDOR

LÄRARHANDLEDNING TILLGÄNGLIGA WEBBSIDOR UPPDRAGSGIVARE: IT-CENTER VÅR REFERENS: STEFAN JOHANSSON TEL.: 0708-23 10 64 E-POST: stefan.johansson@funkanu.se INNEHÅLL: LÄRARHANDLEDNING TILLGÄNGLIGA WEBBSIDOR _ Funka Nu AB Finnbodavägen 2, 131 31

Läs mer

TDDC74 Programmering: Abstraktion och modellering Datortenta , kl 14-18

TDDC74 Programmering: Abstraktion och modellering Datortenta , kl 14-18 TDDC74 Programmering: Abstraktion och modellering Datortenta - 017-10-7, kl 14-18 Läs alla frågorna först och bestäm dig för i vilken ordning du vill lösa uppgifterna. Uppgifterna är inte nödvändigtvis

Läs mer

Projektmodell med kunskapshantering anpassad för Svenska Mässan Koncernen

Projektmodell med kunskapshantering anpassad för Svenska Mässan Koncernen Examensarbete Projektmodell med kunskapshantering anpassad för Svenska Mässan Koncernen Malin Carlström, Sandra Mårtensson 2010-05-21 Ämne: Informationslogistik Nivå: Kandidat Kurskod: 2IL00E Projektmodell

Läs mer

Svensk nationell datatjänst, SND BAS Online

Svensk nationell datatjänst, SND BAS Online Pass 4: Metadatastandarder Mer om metadatastandarder Välkommen till presentation 3 i pass 4. Den här presentationen handlar om några olika teman som har att göra med metadatastandarder. Jag kommer att

Läs mer

Att skriva för webbplatsen. Stöd för webbredaktörer

Att skriva för webbplatsen. Stöd för webbredaktörer Att skriva för webbplatsen Stöd för webbredaktörer Innehåll Riktlinjer för högskolans webbplats... 3 Webbplatsen ska göra det den gör bäst... Fel! Bokmärket är inte definierat. Användarens behov styr hur

Läs mer

Våga vara tråkig. en spaning i den terminologiska omvärlden. Karin Dellby & Henrik Nilsson. Terminologicentrum TNC.

Våga vara tråkig. en spaning i den terminologiska omvärlden. Karin Dellby & Henrik Nilsson. Terminologicentrum TNC. Våga vara tråkig en spaning i den terminologiska omvärlden Karin Dellby & Henrik Nilsson Terminologicentrum TNC 4 november 2015 Vem spanar? Karin Dellby Henrik Nilsson Terminologicentrum TNC är det centrala

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

TDP007 Konstruktion av datorspråk Hemtentamen

TDP007 Konstruktion av datorspråk Hemtentamen TDP007 Konstruktion av datorspråk Hemtentamen 2008-08-20 Hemtentamen är kompletterings- och omexaminationstillfälle för de studenter som missat hela eller delar av inlämningar och seminarier, moment LAB1,

Läs mer

Handledning och checklista för klarspråk

Handledning och checklista för klarspråk Handledning och checklista för klarspråk i Brottsofferjouren 2015-02-24 Innehåll Vad är klarspråk?... 2 Varför ska vi skriva klarspråk?... 2 Hur du kan använda checklistan... 2 Innan du börjar skriva...

Läs mer