NORDISKE STUDIER I LEKSIKOGRAFI



Relevanta dokument
Sprog i Norden. Titel: Internordisk kommunikation kurs i skandinaviska vid Islands universitet. våren Forfatter: Elisabeth Alm.



NORDISKE STUDIER I LEKSIKOGRAFI





Sprog i Norden. Titel: Om film- och nyhetsöversättning och skillnarderna mellan dem. Riina Heikkilä. Forfatter: Kilde:


NORDISKE STUDIER I LEKSIKOGRAFI

Sprog i Norden. Titel: Finska, svenska, samiska och andra språk i det tvåspråkiga Finland. Pirkko Nuolijärvi. Forfatter: Kilde:

Sprog i Norden. Titel: Det språksosiologiska klimatet för svensk språkvård i Finland. Christer Laurén. Forfatter: Kilde:


Sprog i Norden. Händelser på det språkpolitiska området i Norden. Kilde: Sprog i Norden, 2005, s

Sprog i Norden. Färre förskolor för teckenspråkiga barn. Titel: Forfatter: Tommy Lyxell. Kilde: Sprog i Norden, 2012, s [i hæftet: s.



NORDISKE STUDIER I LEKSIKOGRAFI




Maureen Sundin, Patent- och registreringsverket, bolagsavdelningen (PRV Bolag)


Sprog i Norden. Titel: Informationsteknik och skrivande. Forfatter: Pirjo Hiidenmaa. Kilde: Sprog i Norden, 1999, s URL:

NORDISKE STUDIER I LEKSIKOGRAFI



NORDISKE STUDIER I LEKSIKOGRAFI

LexicoNordica. Peter Jagers [Matematikens ord]

Carl-Erik Lundbladh: Handledning till Svenska Akademiens ordbok. Stockholm: Norstedts 1992.

Sprog i Norden. Behovet av en ny nordisk språkkonvention. Kilde: Sprog i Norden, 2015, s



Inhemskt och främmande. Inlägg till Jón Hilmar Jónssons föredrag Tendenser og tradisjoner i islandsk orddannelse

Kommentar till Sven-Göran Malmgrens recension En ny svensk konstruktionsordbok i LexicoNordica 11




Sprog i Norden. Titel: Dialekt och skola. En orientering om förhållanden i Sverige. Sven O. Hultgren. Forfatter: Kilde: Sprog i Norden, 1984, s.

Klart språk i Norden. Texten - organisationen - kulturen. Britt-Louise Gunnarsson. Kilde: Klart språk i Norden, 2003, s




Sprog i Norden. Arbetet för parallelspråkigheten i den finskspråkiga gemenskapen. Kilde: Sprog i Norden, 2015, s


NORDISKE STUDIER I LEKSIKOGRAFI


Enhetlig utformning av lägenhetsnummer


LexicoNordica. Kilde: LexicoNordica 1, 1994, s URL: LexicoNordica og forfatterne

Om lagspråk och flerspråkighet om de svårigheter som olika juridiska system och de många olika språken i EU innebär för översättningsarbetet


NÄR DU SÖKER FAKTA OM

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.


Mot bättre service utveckling av Folkpensionsanstaltens e-tjänster

LexicoNordica. Gunnar Bergh Kejsare, huliganer och pappenheimare. En utflykt bland ord och uttryck bildade på personnamn. Stockholm: Carlsson.

Föreläsning 3.1: Datastrukturer, en översikt


PATENTBESVÄRSRÄTTEN YTTRANDE AD nr

Teckenspråkiga och den nordiska språkkonventionen i dag och i framtiden? Kaisa Alanne Finlands Dövas Förbund rf Dövas Nordiska Råd

NORDISKE STUDIER I LEKSIKOGRAFI

Svenska i toppen och i blåsväder. Om svenskundervisningen i finska skolor

LexicoNordica. Lars Törnqvist [En modern bildordbok] Norstedts bildordbok: Svenska, engelska, tyska, franska. Stockholm: Norstedts Förlag AB, 1997.

NORDISKE STUDIER I LEKSIKOGRAFI


Barbro Ehrenberg-Sundin, ämnesråd, medlem i Klarspråksgruppen, Regeringskansliet




Handlingsplan i bibliotekskunskap för Nybro Kommuns skolor.

Sprog i Norden. Titel: Det nordiska språksamarbetet Kilde: Sprog i Norden, 2009, s

Hösten IKT-kompetens för bibliotekspersonal. ArtikelSök. Avancerad guide

Klart språk i Norden. Socialförmåner med klarspråk. Mia Helle, planerare, Folkpensionsanstalten, Finland. Kilde: Klart språk i Norden, 2005, s.

Mötesplats inför framtiden Borås april Arja Mäntykangas Bibliotekshögskolan Åke Sellberg

Klart språk i Norden. Vad gör språknämnderna och vad kan de bidra med? Birgitta Lindgren, Svenska språknämnden

LEXJKOGRAFISK. AL-FABETXeERING. Rolf 6avare SPRAKOATA. Inledning

Det skandinaviska argumentets roll i språknämndernas rådgivning.

Ophavsmanden til teksten skal krediteres, og kilden skal angives, jf. ovenstående bibliografiske oplysninger.


Sprog i Norden. Titel: Informationsåtkomst på flera språk. Forfatter: Jussi Karlgren. Kilde: Sprog i Norden, 1999, s URL:

Sprog i Norden. Språkpolitik genom lagstiftning exemplet Finland. Kilde: Sprog i Norden, 2006, s

FORMALIA EXAMENSARBETE

Årsrapport teckenspråksnätverket vid Nordisk Språkkoordination

Sprog i Norden. Punktskrift ur ett nordiskt perspektiv. Kilde: Sprog i Norden, 2005, s

Blueprint Den här planeringen skapades med Blueprints gratisversion - vänligen uppgradera nu. Svenska, 9:1 - Kursöversikt, 2015/2016

LexicoNordica. Sven-Göran Malmgren [Basala fackord] TNC 104. Solna: Terminologicentrum TNC sidor. Pris: 477 SEK.

en av makarna kan ta den andras efternamn som sitt och antingen behålla sitt efternamn som mellannamn eller avstå från det namnet


ALEPH ver. 16 Sökning


Sprog i Norden. Persontecken inom teckenspråket. Kilde: Sprog i Norden, 2008, s

NORDISKE STUDIER I LEKSIKOGRAFI

Digital Display VDS / Bus2

0HG HXURSHLVNW GLJLWDOW LQQHKnOO EHKnOOHUYLOHGQLQJHQ

LexicoNordica. Annika Karlholm [Kortare presentation av Ordbok över Finlands svenska folkmål. Band 4]

MANUAL FÖR WEBSELMA 27 september 2002 Pedagogiska centralen

Grupparbete L ÄR ARHANDLEDNING TRO, HOPP & KÄRLEK. Sjömanstatueringar.

Formgivning. Vilka företag står bakom djursymbolerna nedan och varför vill man förknippas med just dessa djur? Företaget EMicrosofts logotype.

Transkript:

NORDISKE STUDIER I LEKSIKOGRAFI Titel: Forfatter: Lexikografiska principer för alfabetisk filering med dator Rolf Gavare Kilde: Nordiske Studier i Leksikografi 1, 1992 2001, s. 184-189 Rapport fra Konferanse om leksikografi i Norden, 28.-31. mai 1991 URL: http://ojs.statsbiblioteket.dk/index.php/nsil/issue/archive Nordisk forening for leksikografi Betingelser for brug af denne artikel Denne artikel er omfattet af ophavsretsloven, og der må citeres fra den. Følgende betingelser skal dog være opfyldt: Citatet skal være i overensstemmelse med god skik Der må kun citeres i det omfang, som betinges af formålet Ophavsmanden til teksten skal krediteres, og kilden skal angives, jf. ovenstående bibliografiske oplysninger. Søgbarhed Artiklerne i de ældre Nordiske studier i leksikografi (1-5) er skannet og OCR-behandlet. OCR står for optical character recognition og kan ved tegngenkendelse konvertere et billede til tekst. Dermed kan man søge i teksten. Imidlertid kan der opstå fejl i tegngenkendelsen, og når man søger på fx navne, skal man være forberedt på at søgningen ikke er 100 % pålidelig.

184 Rolf Gavare Lexikografiska principer för alfabetisk filering med dator Den alfabetiska ordningen har sedan århundraden varit vår viktigaste nyckel för att komma åt information via lexikaliska register. När vi lämnar det manuella inordnandet och övergår till automatiska datarutiner, upptäcker vi snart att den traditionella alfabetiseringens principer är långt ifrån så triviala och entydiga att de enkelt kan formaliseras. Detta bidrag försöker ge en liten inblick i alfabetiseringens huvudproblem och beskriver en lexikografiskt baserad modell som kan implementeras i våra datorsystem. Vad är lexikografisk alfabetisering? Frågan kan naturligtvis enkelt besvaras med att begreppet avser ordnandet av ett antal stickord eller flerordiga uppslagsformer i enlighet med alfabetets bokstavsordning. Detta låter ju mycket enkelt och klart, men tyvärr visar det sig vid närmare eftertanke finnas en mängd delproblem dolda i denna fråga. Låt mig därför ta det hela från grunden och göra en snabb översikt över några av de viktigaste problemen vid alfabetiskt ordnande. Vad är det egentliga syftet med en alfabetisk ordning? Huvudsyftet är förstås att läsaren/användaren så snabbt som möjligt skall kunna finna den information som han eller hon söker efter. Sedan flera hundra år har man utnyttjat den inlärda, fasta ordningsföljd som ges av bokstäverna i alfabetet. Den hävdvunna, alfabetiska följden varierar emellertid en hel del från språk till språk och har också varierat genom tiderna - vi kan exempelvis påminna oss att runraderna, futharkerna, ger en helt annan ordning än dagens alfabet. Bokstavsramsan har en mnemoteknisk funktion, men den återspeglar också ofta en del av det aktuella språkets (morfo)fonematiska särdrag. Vad vi förknippar med en korrekt bokstavsordning är dock, nota bene, inte alltid en linjär följd av bokstäver. (Jfr tabell 1.) Det bör betonas att en alfabetisk ordningsföljds främsta syfte är att oinitierade användare - utan några särskilda anvisningar - snabbt skall kunna finna den information de söker, dvs. den skall finnas på en intuitivt naturlig plats. Det är just detta syfte som bör vara vägledande för lexikografer och andra som upprättar alfabetiska förteckningar. Var finns problemen? Så länge det gäller att alfabetiskt ordna enskilda ord med enbart små bokstäver, utan accenter

185 bokstavsordning Ordningsföljden i de svenska, isländska, tyska och spanska alfabeten. Svenska Isländska Tyska Spanska a, a a a, ä a, å b å b b c b c c d (c) d ch e, e d e d f ö f e, e g e g f h e h g f h j g j i, i k h k j l l k m m l n j n Il o k o, ö m p l p n q m q ii r n r 0,6 s o s (B=ss) p t 6 t q u p u, u r Y, '\\ (q) v s x r w t y, u s x u, u, u z t y v å u z w ä u x ö v y (w) x y y z p a') ö z Tabell l. Ur Nationalencyklopedin, artikeln bokstavsordning. eller specialtecken av något slag, så är det inga större problem. Komplikationerna uppkommer framforallt vid alfabetisering av större ordböcker och uppslagsverk, bibliografiska kataloger, personnamnsregister, tekniska termlistor och konkordanser och ordindex till stora, autentiska textmaterial. Hur skall man t.ex. behandla skillnaden mellan gemena bokstäver och versaler, diakritiska tecken (som i f, e, l och n), ligaturer (som (11 och re), digrajer (som spanskans ch eller holländskans ij), bokstavsvarianter (som v-w och y-ii i svenskan), icke-latinska skrivtecken (t.ex. grekiska bokstäver i vetenskaplig text), logogram (&, %,, etc.), förkortningar, siffertal (arabiska och romerska), skiljetecken, symboler osv.? Var kan man

186 exempelvis förvänta sig att en uppslagsboks läsare söker artiklarna 1,3,5-triazin, Henri de Toulouse-Lautrec, Le Havre, 's-gravenhage, Pingvellir, Liibeck, a-strålning, Karl X Gustav, SJ, &, o.s.v., Casar, JErrp och 1984? Hur skall de nämnda typerna prioriteras sinsemellan och hur skall varje grupp vara rangordnad internt; vilken inbördes ordning är tex. mest logisk att ha mellan de olika diakritiska tecknen? Ett för användaren ofta mycket påtagligt problem gäller också om alfabetiseringen av flerordiga uppslagsformer skall ske ord-för-ord eller tecken-för-tecken (så att ordgränserna negligeras); det är klart förvirrande när olika principer tillämpas i likartade sammanhang. Skillnaden är förstås särskilt märkbar då uppslagsformens inledande ord är kort. Vid ordvis alfabetisering är det därför tex. mindre lämpligt att skriva akronymer med ordmellanrum mellan bokstäverna. Principiellt är en alfabetisering ord-för-ord att föredra om bruket av särresp. sammanskrivning är relativt stabilt, som tex. i de nordiska språken. Om det däremot vacklar eller varierar fritt kan tecken-för-tecken-principen vara lämpligare. (Det kan dock noteras att t.o.m. Encyclopedia Britannica nyss övergått från sortering tecken-för-tecken till ord-för-ord.) Krav på algoritmer for datoriserad alfabetisering Våra grundläggande krav på principer för att åstadkomma en alfabetisk ordningsföljd är att ordningen skall bli förutsägbar och entydig. Detta är särskilt betydelsefullt vid datorbaserad sortering. Kravet innebär att vi måste kunna vara säkra på att få exakt samma ordningsföljd om samma material alfabetiseras på nytt och att det inte blir några komplikationer om vi samsorterar alfabetiserade material från olika källor. Omfattande dataregister för informationssökning och urval ställer också stora krav på explicita och entydiga fileringsmetoder och användaranpassade presentationsformer. All information som finns i uppslagsordens grafiska form måste därfor kunna utnyttjas, om vi skall kunna tillfredsställa höga lexikografiska krav på stringens och konsekvens. Detta har tyvärr de hittillsvarande standarderna inte klarat av. Jag skall här i korthet beskriva hur en - i tillämpliga delar - datorimplementerbar modell för alfabetisering kan vara uppbyggd. Föreslagen alfabetiseringsmodell Med utgångspunkt i nedanstående illustration (figur l) skall jag försöka belysa modellens huvudmoment. Vi utgår från de enheter som vi vill använda som sökbara referenser och som skall ordnas i en intuitivt korrekt, alfabetisk följd. De är i sin ursprungliga form ord eller ordförbindelser, så som de faktiskt återges i löpande text (med normal ordföljd). Denna s.k. textform (betecknad som nivå l i figur 1) är dock inte alltid den vi är vana att använda som uppslagsform (2). En viktig grupp där uppslagsformen traditionellt skiljer sig från textformen är personnamnen. I Sverige och flertalet europeiska länder skrivs i sökregister nutida personnamn med inverterad följd, dvs. med efternamn, kommatecken och därefter förnamn. Medeltida och äldre personnamn anges dock i rak följd, i likhet med bruket på Island (vad beträffar islänningars namn, ofta till skillnad från utlänningars). I vissa fall förekommer det också att andra, flerordiga namn får inverterad ordföljd (som t.ex. typen Skandinavien, Brandoch olycksfallsförsäkringsaktiebolaget).

187 (1) TEXTFORM (2) UPPSLAGSFORM (3) RANGORDSFÖLJD (4) ORDNINGSFORMER (5) SORTERINGSNYCKEL Figur l En invertering av namnformen är dock inte tillräcklig i alla fall, exempelvis när det gäller hanteringen av namnprefix (af, von etc.). I bibliografiska förteckningar behandlas namnprefixen enligt mycket komplicerade regler. Exempelvis brukar prefixet de negligeras i namn på danskar, norrmän, holländare, flamländare, fransmän, medeltida italienare, spanjorer, portugiser, m.fl., medan det blir sorteringsgrundande för exempelvis svenskar, engelsmän och nutida italienare. Extra problem uppträder naturligtvis för personer som bytt nationalitet. Så här komplicerade regler är absolut inte användarvänliga - de måste klart förenklas, kanske t.o.m. så mycket att samtliga personnamnsprefix endast blir sekundärt, sorteringsgrundande. Bibliotekens katalogiseringsregler ger oss också ett annat exempel på hur delar av uppslagsformen (t.ex. en boktitel) särbehandlas: inledande prepositioner och artiklar och bestämningar av typen Svenska, Statens, Allmänna, Aktiebolaget etc. brukar negligeras; eventuellt får de bilda sista sorteringsgrund. (Effekten blir då i princip likvärdig med en invertering av uppslagsformen.) För att nämna ytterligare en anmärkningsvärd bibliograftsk konvention kan vi tänka på att tecknet & oftast insorteras som om det vore utskrivet som och, and, und, et, og etc., alltefter titelns språk. Det är således befogat att urskilja vad som brukar kallas en rangordsföljd (3), dvs. de element (ord) som den alfabetiska sorteringen skall ta hänsyn till, i en preciserad, inbördes ordning; alltså inte nödvändigtvis vatje ord från det första till det sista. För att undvika sorteringsfel som beror på den mänskliga faktorn bör man vara mycket restriktiv med manuella ingrepp i underlaget för sorteringsnycklama. Hela sorteringsförloppet efter etablerandet av rangordsföljden kan ske helt automatiskt, algoritmiskt - inga manuella ändringar bör därför tillåtas sedan rangordsföljden fastställts; all information som sorteringen grundar sig på bör vara en entydig återspegling av uppslagsordens grafematiska form. Rangordsföljden är emellertid inte omedelbart användbar som underlag för genereringen av sorteringsnyckeln. Vi måste precisera de explicita teckenföljder som skall

188 jämföras vid sorteringen. Detta sker i den s.k. ordningsformen (4). Här omskrives exempelvis ligaturen re till oe,./3 blir ss och ch blir i spanska material jämställt med ett enda tecken (en kod), jfr tabellen. I somliga tillämpningar orokodar man på detta stadium arabiska siffertal till en rent alfabetisk form och romerska ordningstal till ett numeriskt värde (för att få korrekt ordning på bl.a. regentföljder). För vissa applikationer ersätts nu de ortografiskt korrekta ordningsformerna med fonetiska former eller kanoniska normalformer, som sedan får bilda underlag för sorteringen. (Jfr telefonkatalogens normaliserade efternamnsortering, som samsorterar Carlson, Carlsson, Karlson, Karlsson etc.) Vid finalalfabetisk sortering, slutligen, vändes ordningsformernas teckenföljd baklänges. Sorteringsnyckeln (5) skapas därefter enligt den s.k. stavningsprincipen, dvs. sorteringsnyckeln bygger strikt på (de eventuellt modifierade) ordningsformernas stavning. I korthet kan följande principer fastställas för hur sorteringen bör fungera och därmed för hur sorteringsnycklarna bör vara konstruerade: Sorteringen kan ske ord1ör-ord eller tecken-för-tecken (i vilket fall ordmellanrummen negligeras). Trots att skillnaden mellan dessa principer, som nämnts, ofta är mycket påtaglig, finns ingen universellt accepterad konvention eller standard i detta avseende. Svenska telefonkataloger och bibliotekskataloger tillämpar exempelvis ord-för-ordprincipen medan uppslagsverk traditionellt tillämpat tecken-för-tecken-principen. (Enligt den förra sorteras således allmän väg före allmänna och Svensk uppslagsbok före Svenska Akademien, enligt den senare metoden tvärtom.) För (svenskt) lexikografiskt bruk förordas att sorteringen sker ord-för-ord. Vid rent alfabetisk sortering negligeras till att börja med alla icke-alfabetiska tecken; vid ordlikhet får övriga tecken (siffror och skiljetecken) fälla utslaget. (Exempelvis hamnar då l,3,5-triazin direkt efter triazin.) Vid alfanumerisk sortering behandlas siffrorna däremot som jämbördiga med bokstäverna i sorteringshänseen de; l,3,5-triazin hamnar då bland sifferorden. Jämförelsen av de alfabetiska tecknen görs i vruje ord på fyra nivåer: 1. Först jämföres orden i normaliserad form, där enbart motsvarande alfabetiska grundtecken och logogram beaktas; vi får då exempelvis följden & a Aabel... 2. Vid (ord)likhet tas därefter hänsyn till ev. varianttecken i orden: Lybeck Liibeck... tvist twist tvista twista tvistemål... (enl. svensk konvention). 3. För det tredje beaktas eventuella diakritiska tecken: cote cote cote cote... 4. Slutligen ges bokstäver som utmärks med versallägre prioritet än motsvarande gemen: ma ma Ma MA... Jämförelsen bör alltså normalt ske ord-för-ord samt från vänster till höger, så att ord som börjar på ett likartat sätt hamnar intill varandra. (Vi får då exempelvis ordningen in in- -in -in-... ; jfr även 3 och 4 ovan.) Den modell för alfabetisk fllering som jag här kortfattat presenterat finns utförligare beskriven

i Gavare 1988. Häri finns också utförliga anvisningar för modellens implementering i datorprogram. (Modellen är underlag för Teknisk norm (nr 34) för svenska statsförvaltningen. Den diskuteras för närvarande även inom europeiska och internationella standardiseringsorgan.) 189 Litteratur Gavare, Rolf. 1988. Alphabetical Ordering in a Lexicological Perspective. 1: Studies in Computer-Aided Lexicology: 63-102. Stockholm.