Kodningspraxis för Zacharias Topelius Skrifter Thomas Gartz Anna Movall Elisa Veit redaktionen för ZTS 2008 2013 1 INLEDNING... 4 1.1 OM ZTS KODNINGSMANUAL... 4 1.2 AUTOMATISKT OCH MANUELLT... 4 1.3 FILSTRUKTURER... 6 2 KODNING AV ALLMÄNNA TEXTUELLA FÖRETEELSER... 10 2.1 PAGINERING, RUBRIKER, STYCKEN OCH FOTNOTER... 10 Paginering och sidbrytning... 10 Titlar och rubriker... 11 Nytt avsnitt... 12 Textstycken... 12 Fotnoter och slutnoter... 14 2.2 LISTOR, TABELLER OCH KALKYLER... 15 Listor... 15 Tabeller... 15 Kalkyler... 17 2.3 GRAFISKA MARKERINGAR... 18 Grafiskt markerade personer, platser och verk samt främmande språk... 20 Universalattributet rend... 20 2.4 SPECIELLA TECKEN... 21 Förbjudna tecken... 21 Specialtecken... 22 Hårt blanksteg och smalt hårt blanksteg... 23 Bråktal... 24 3 MANUSKRIPTBESKRIVANDE KODNING... 26 3.1 ALLMÄNNA TEXTUELLA FÖRETEELSER... 26 Paginering, rubriker, stycken och fotnoter... 26 Listor, tabeller och kalkyler... 26 Grafiska markeringar... 26 Speciella tecken... 27 3.2 DATERING OCH TILLKOMSTORT... 27 3.3 OLÄSLIGT, SVÅRLÄST OCH SAKNAT... 29 Oläsligt... 29 Svårläst... 30 Saknade bokstäver, tecken eller ord... 31 Tomrum i texten... 32 3.4 MANUSKRIPTFÖRKORTNINGAR OCH SKRIBENTENS KOMMENTARER... 32 Utskrivning av manuskriptförkortningar... 32 Skribentens kommentarer... 32 3.5 HÄNDER OCH PENNOR... 32 I TEI Header... 32 I den löpande texten... 34 I tillägg, strykningar, ändringar och fotnoter... 35 I understrykningar... 37
3.6 ÄNDRINGAR... 37 Strykningar... 37 Ersättningar... 38 Tillägg... 39 Omfattande tillägg och strykningar... 42 Ändrad ordningsföljd och flyttad text... 44 Återtaget... 46 Sofortkorrekturer... 46 4 SEMANTISK KODNING... 48 4.1 PERSONNAMN... 48 4.2 GEOGRAFISKA NAMN... 51 4.3 NAMN PÅ INSTITUTIONER... 56 4.4 VERKTITLAR... 56 4.5 FRÄMMANDE SPRÅK... 58 4.6 DUBBEL KODNING... 60 5 UTGIVARENS ÄNDRINGAR... 62 5.1 MINDRE NORMALISERINGAR... 62 5.2 KOMPLETTERINGAR... 63 5.3 RÄTTELSER I ORIGINALET... 64 5.4 ÖVRIGA UTGIVARINGREPP... 64 5.5 AVGRÄNSNING AV KODNING, SAMMANFALL MED ANNAN KODNING... 66 Avgränsning av kodning vid utgivarändringar... 66 Utgivarändringar och övrig kodning... 66 6 VARIANTER... 68 6.1 KATEGORISERING OCH KODNING... 68 Substantiella varianter... 69 Ortografiska/typografiska varianter... 69 Interpunktionsvarianter... 69 Positiva varianter... 70 Flera variantkategorier inom samma variant... 70 Skillnader som inte utgör varianter... 70 Avgränsningen av varianter... 71 Varians inom ett stycke eller en strof... 72 Varianter-i-varianter... 77 Sammanfall med annan kodning... 78 Mycket omfattande strukturell avvikelse (fallet Hertiginnan af Finland)... 79 7 KOMMENTARER... 81 7.1 TIDIGARE KODNINGSPRAXIS... 81 7.2 UPPGIFTER OM PERSONER, ORTER OCH VERKTITLAR... 82 8 GENRESPECIFIKT... 83 8.1 PROSA... 83 8.2 LYRIK... 83 Allmänt... 84 Kodning av diktmanuskript... 86 Kodning av ofullständigt... 89 Kodning av etablerad text... 89 Exempel på kodad dikt... 89 8.3 BREV... 90 2
Inledande del... 90 Löpande text... 92 Avslutande del... 95 Tidigare och senare brevdel... 97 Tillägg i marginalerna eller där den löpande texten vanligen finns... 98 Exempel på kodat brev... 99 Telegram... 100 Exempel på kodat telegram... 100 8.4 DRAMATIK... 101 8.5 DAGBÖCKER... 106 8.6 FÖRELÄSNINGAR... 107 9 FÖRTECKNINGAR...110 9.1 ELEMENT, ATTRIBUT OCH ATTRIBUTVÄRDEN... 110 9.2 SPECIALTECKEN (ENTITETER)... 132 Förbjudna tecken... 132 Specialtecken som införs som tecken... 132 Specialtecken som anges med numerisk entitetsreferens... 134 9.3 TEI-MODULER... 137 9.4 ELEMENT I TEI HEADER... 137 3
1 Inledning 1.1 Om ZTS kodningsmanual Uppdaterad 23.9.2013 Utgångspunkten för den textkodning som används inom ZACHARIAS TOPELIUS SKRIFTER är det s.k. Text Encoding Initiative, förkortat TEI. Dess senaste version, benämnd P5, kan studeras på nätet under adressen www.tei-c.org/guidelines/p5. TEI utgör den yttre ramen för utgåvans kodningspraxis: vi bestämmer själva vad vi kodar och vad vi inte kodar, och t.ex. i vilka kategorier vi indelar varianter och kommentarer. Det är ytterst viktigt att alla konsekvent följer samma kodningspraxis, annars uppstår problem vid visning, maskinell sökning och framställning av böcker. All ny kodning som tas i bruk bör därför införas i denna kodningsmanual. I detta dokument är alla taggar fetade och i blå färg, attributen är orange och attributvärdena bruna. Texten i exemplen återges i grönt. Färgerna och fetstilen gör instruktionerna mer lättlästa och kodandet enklare, och motsvarar de färger som används i XML-editorn Oxygen. XML skiljer på versaler ( stora bokstäver ) och gemener ( små bokstäver ), så i detta hänseende bör man vara noga med att följa skrivsättet i instruktionerna. Som regel används gemener i kodningen, men versaler förekommer t.ex. i hexadecimala tal och i elementnamn, attribut och attributvärden som består av två sammanskrivna ord: <placename>, spanto, noborder. Observera också att taggarna måste öppnas och stängas i en given ordningsföljd: den först öppnade taggen stängs sist och den senast öppnade taggen stängs först: Ex.1: <p><hi rend="underline">[understruken text]</hi></p> Den första versionen av ZTS kodningsmanual skapades 2008. Manualen är avsedd att fungera både som dokumentation av vår textkodningspraxis och som ett hjälpmedel i det dagliga arbetet. Den uppdateras och utvidgas kontinuerligt av redaktionen för ZTS. I denna version ingår inte några avsnitt som innehåller instruktioner för användning av programvara. Instruktioner för intern länkning, som delvis görs i HTML, har också utelämnats men de använda elementen tas upp i förteckningen 9.1. 1.2 Automatiskt och manuellt Uppdaterad 24.9.2013 För tryckta grundtexter inleds det praktiska arbetet med att texten skannas. Därmed erhålls digitala faksimil av textsidorna. Dessa faksimil utgör bilder i datatekniskt hänseende, och de omvandlas till text genom s.k. OCR-behandling, där OCR står för Optical Character Recognition. Detta arbetsmoment resulterar i en råtext, som alltid innehåller en del teckentolkningsfel. Råtexten måste alltså alltid granskas, d.v.s. kollationeras mot originalet. Skanning och OCRbehandling utförs inte inom redaktionen, utan av en utomstående specialist. 4
I samband med OCR-behandlingen förses texten automatiskt med en grundläggande TEIkodning. Den automatiska kodningen omfattar allt som krävs för att texten ska kunna gestaltas på samma sätt som i originalet, vilket innebär kodning av rubriker, styckeindelning, paginering, (fot)noter och grafiska markeringar som t.ex. kursiveringar. Med hjälp av ett TEI-filter kan textfilerna ändå kollationeras i en vanlig ordbehandlare utan att kodningen syns, och dessutom med stavningskontroll för 1800-talssvenska. TEI-filtret fungerar i två riktningar: det konverterar först de automatiskt kodade filerna till OpenOffice.org:s filformat odt, och när texten är kollationerad konverterar det den tillbaka till XML/TEI. 1 I samband med kollationeringen i ordbehandlaren korrigeras främst teckentolkningsfel, men om t.ex. en styckeindelning har fallit bort kan den införas i form av en s.k. mall. Styckeindelningen eller mallen i ordbehandlaren översätts sedan till kodning av TEI-filtret. Mallarna utgör alltså ordbehandlarens motsvarighet till kodning, vilket innebär att om t.ex. 55 i TEI-filen är kodat som ett sidnummer, så syns det i ordbehandlaren mot en rödfärgad bakgrund. Det förekommer att det saknas kod för något sidnummer i råtexten, och i sådana fall kan man införa den i ordbehandlaren i form av en mall: antingen en character style eller en paragraph style, beroende på om sidnumret finns inne i ett textstycke eller mellan två stycken. Det syns i ordbehandlaren om det finns direkta fel i den automatiska kodningen. Det kan gälla blanksteg före och efter <pb/>-element, kodning av styckeindelning eller styckeindrag, eller att betydelsebärande ornament inte är återgivna i råtexten. Skilda instruktioner har utarbetats för kollationeringsmomentet ( Kollationering med OpenOffice.org, Thomas Gartz 6.3.2009, 18 s., pdf-fil). Efter kollationeringen kvarstår förhoppningsvis inga teckentolkningsfel i texten. Originalets sättnings- och tryckfel korrigeras däremot först i kodningen. De förtecknas emellertid i samband med kollationeringen, i likhet med alla suspekta textställen, t.ex. ord som verkar saknas i originalet. En del ovanliga specialtecken och bråktal måste också införas i samband med den manuella kodningen. Därtill kan kodningen som genererats av TEI-filtret i många fall vara onödigt fragmentarisk till följd av att t.ex. kursiveringar av hela meningar automatiskt kodas ord för ord i stället för som en helhet. Även om textfilerna formellt sett är TEI-kodade är det i praktiken snarast frågan om en kodning på HTML-nivå: textfilerna har enbart försetts med en kodning som registrerar hur texten har gestaltats i originalet. Kännetecknade för XML- och TEI-kodning är att man inte enbart kodar t.ex. att ett ord är kursiverat, utan om möjligt också varför det har kursiverats: främmande språk, namn etc. Sådan semantisk kodning måste införas manuellt. Den manuella kodningen behövs också för allt som utgivarna tillför texterna, och för att registrera alla ingrepp som utgivarna gör i texten. Tryckfel kan korrigeras också utan kodning, men TEI-kodningen gör det möjligt att registrera var utgivarna har gjort ingrepp i texten, och 1 Observera att TEI-filtret endast fungerar med OpenOffice.org 2, inte med den nyare versionen OpenOffice.org 3. 5
hur textstället ifråga ser ut i originalet. I den mån texter normaliseras registreras också den ursprungliga textbilden. 2 Förutom att grafiska markeringar kodas på ett mer avancerat sätt i TEI än i HTML kodar man i TEI vanligen också en del textinslag som inte har framhävts i originalet. Det kan gälla t.ex. olika slag av namn eller inslag på främmande språk. Kodningen av omarkerade textinslag utgör en en grundkodning, som gör det möjligt att införa länkar. Den kan också utnyttjas för att framhäva olika textinslag med hjälp av bakgrundsfärg, för redaktionella ändamål (t.ex. genererande av listor med inslag på grekiska) och av sökmotorer som utnyttjar XML-kodning. TEI:s mer avancerade kodning av grafiskt markerade textinslag tjänar samma syften som kodningen av omarkerade inslag, men innebär därtill att man vid visning kan välja att t.ex. ersätta spärrning med kursivering endast i vissa fall. Om grundtexten är ett manuskript måste hela texten skrivas in manuellt, alltså transkriberas. En startmall underlättar arbetet såtillvida att mallen innehåller den kodning som finns i början av alla texter av en viss typ, t.ex. brev eller diktmanuskript, och ett genrespecifikt schema känner till exakt vilka element, attribut och värden som är möjliga. id:n som möjliggör länkning av person- och ortnamn samt verktitlar behöver inte införas helt manuellt, utan detta görs halvautomatiskt med programmet TEI Id Selector. Programmet underlättar införandet av id:n radikalt. När man öppnar en XML/TEI-fil i programmet visas en lång förteckning över t.ex. de namn på personer som förekommer i texten. I en annan kolumn visas det sammanhang (ett par textrader) där namnet förekommer, och i en tredje kolumn visas de personposter som redan är införda i databasen. Ifall den person som ett namn refererar till redan ingår i persondatabasen krävs det bara ett par klick för att namnförekomsten ska förses med ett för personen unikt id. I de fall då det visar sig att personen ifråga ännu inte har införts i databasen lägger man till en post (denna funktion är alltså integrerad i TEI Id Selector). Posten förses automatiskt med ett unikt id kodaren behöver alltså aldrig själv hålla reda på vilka id:n som redan har tagits i bruk. 1.3 Filstrukturer Indelning i filer Uppdaterad 20.9.2013 Grundtexten kodas i en huvudfil tillsammans med utgivarens ändringar, vilket gör den till den etablerade texten. Kommentarerna har för Ljungblommor och Finland framställdt i teckningar också ingått i huvudfilen, men i och med Kommentarverktygets ibruktagande 2011 skrivs kommentarer inte längre in i huvudfilen. Standardkommentarer om personer, orter och verktitlar har redan tidigare införts i en databas, så att det i huvudfilen därmed endast ingår ett id som hänvisar till kommentaren. 2 Detta med undantag för små konsekvensändringar (som enbart markeras med <reg>-taggar). 6
Varianter kodas i en skild fil som innehåller grundtexten med kodning av allmänna textuella företeelser, men inte utgivarens ändringar. De övriga textversionerna förses likaså enbart med kodning för allmänna textuella företeelser. För texter som har externa varianter bör man alltså alltid spara en skild fil som endast innehåller grundtexten, som man sedan kan arbeta vidare med när varianterna kodas. TEI Header I motsats till TEI-kodningen i övrigt är informationen i TEI Header inte knuten till något visst textställe, utan den beskriver filen på ett övergripande plan. TEI Header kan jämföras med titelsidan i ett tryckt verk. Den kan innehålla information om själva texten, dess ev. tryckta förlaga, kodningen, revideringar m.m. En TEI Header införs i början av varje XML/TEI-fil, och kodas i ett <teiheader>-element samt i underordnade element för information av olika slag. TEI Header bör i likhet med själva den kodade texten vara underordnat rotelementet <TEI>, som alltså öppnas alldeles i början av ett XML/TEI-dokument och stängs till sist. TEI Header kan ha följande beståndsdelar: 1) en filbeskrivning, som kodas i elementet <filedesc> 2) en kodningsbeskrivning, som införs i <encodingdesc> och också kan innehålla information om förhållandet mellan den digitala texten och dess tryckta förlaga (t.ex. om ev. normaliseringar) 3) en textprofil, som införs i elementet <profiledesc> och kan innehålla information om textens ämnesområde, vem eller vilka som skrivit den o.s.v. 4) en förteckning över revideringar, som kodas i <revisiondesc> Av dessa fyra huvudkategorier utgör endast <filedesc> ett vanligen obligatoriskt inslag i TEI Header. I filer som innehåller variantkodning måste emellertid också <encodingdesc> ingå i TEI Header, och <profiledesc> behövs om det finns flera händer i ett manuskript. Informationen i de olika huvudkategorierna struktureras därtill med hjälp av följande elementtyper: a) grupperingselement (ex.: <editionstmt>, <titlestmt>), som innesluter ett antal element med en viss slags information b) deklarationer (ex.: <tagsdecl>, <refsdecl>), i vilka redogörs för vilken kodningspraxis man följt i olika hänseenden c) beskrivningar (ex.: <settingdesc>, <projectdesc>), som innehåller beskrivningar som antingen kan vara fritt formulerade eller anges i diverse underordnade element Den obligatoriska huvudbeståndsdelen <filedesc> bör innehålla en bibliografisk beskrivning av den elektroniska texten. <filedesc> kan innehålla sju underelement, av vilka tre är obligatoriska: <titlestmt>, <publicationstmt> samt <sourcedesc>. En minimi-tei-header ser alltså ut på följande sätt: 7
<teiheader> <filedesc> <titlestmt>[...]</titlestmt> <publicationstmt>[...]</publicationstmt> <sourcedesc>[...]</sourcedesc> </filedesc> </teiheader> Observera att elementen som är underordnade <filedesc> bör införas i en viss ordningsföljd. Ifråga om de tre obligatoriska elementen är den rätta ordningsföljden alltså 1) <titlestmt>, 2) <publicationstmt> och 3) <sourcedesc>. I <titlestmt> införs ett <title>-element i vilket anges brevets eller manuskriptets signum. I ett <respstmt> som också är underordnat <titlestmt> uppges i elementen <resp> och <name> vem som är ansvarig redaktör för texten ifråga. I <publicationstmt> införs endast en <publisher>-tagg med innehållet Zacharias Topelius Skrifter. I <sourcedesc> uppges (i <p>taggar) Arkivsignum: se databas. Om det finns flera händer anges de i <handnotes>, som alltså är underordnat <profiledesc>. De enskilda händerna införs i <handnote>-taggar. OBS: En separat förteckning över alla element, attribut och -värden som kan ingå i Headern finns i slutet av manualen, se kapitel 9.4. Strukturelement <text><body> All etablerad text bör omslutas av elementet <body>, som i sin tur bör finns inuti <text>. De öppnas alltså i början av den etablerade texten, genast efter </teiheader>, och stängs sist i filen, dock före rotelementet </TEI>, i den omvända ordningsföljden </body> </text>. <div> Texten i en XML/TEI-fil d.v.s. innehållet i <body> kan vid behov indelas i textsektioner (i kodningstekniskt hänseende) som består av t.ex. enskilda kapitel eller dikter. Detta sker med <div>-element, som kan vara antingen numrerade eller onumrerade. De numrerade elementen <div1>... <div7> kan användas om man anser att det finns ett behov av en hierarkisk indelning av texten i större och mindre avsnitt, så att ett kapitel t.ex. alltid avgränsas med <div4>. I vår kodningspraxis har vi ändå åtminstone tillsvidare gått in för att använda enbart onumrerade <div>-element. Man får inte använda både numrerade och onumrerade <div>element i en och samma XML/TEI-fil. I <div>-elementet kan attributet type användas för att ange vilken slags textsektion det är fråga om, t.ex. <div type="chapter">. Vi utnyttjar också <div> för att ange att ett diktmanuskript är oavslutat, och för att i en del specialfall indela brev i en tidigare och en senare del. I bägge fallen används attributet part vid sidan av type, t.ex. som i <div type="poem" part="y">. I lyrikkodningen (filerna med etablerad text) 8
avgränsas kommentardelen med hjälp av elementet ifråga. Därtill kan attributet xml:lang användas i <div>, ifall t.ex. ett brev i sin helhet är skrivet på ett annat språk än svenska. <milestone/> Vid sidan av <div>-elementet har vi också tagit i bruk ett <milestone/>-element för att koda textindelningar. I motsats till <text>, <body> och <div> innesluter <milestone/> inte någon text, utan är ett tomt element. I vår kodning används det i kombination med unit="part" för att registrera indelningar i avsnitt, som t.ex. markerats med blankrad i originalen. 9
2 Kodning av allmänna textuella företeelser 2.1 Paginering, rubriker, stycken och fotnoter Uppdaterad 11.9.2012 Paginering och sidbrytning Pagineringstaggen <pb/> placeras i sidbrytningen och sidnumret avser efterföljande sida (pb står för page break). Utgångspunkten är att sidnumret är utskrivet, d.v.s. man behöver aldrig explicit ange type="printed" (tryckta texter) eller type="written" (manuskript). Endast själva sidnumret (arabiskt eller romerskt) införs i pagineringskodningen. Eventuella föregående s. eller efterföljande punkter utelämnas. Felaktiga sidnummer korrigeras stillatigande. Ifall ett sidnummer i ett manuskript har ändrats införs enbart det slutliga numret, själva ändringen kodas alltså inte. Om sidnumret finns inne i ett textstycke: blanksteg efter (men inte före) pagineringstaggen! Om sidnumret finns inne i ett ord: inga blanksteg, bindestreck avlägsnas. a) originalets paginering, tryckt text <p>här slutar sidan 7<pb type="orig" n="8"/> och här börjar sidan 8.</p> <p>här sker sid<pb type="orig unprinted" n="15"/>brytningen mitt i ett ord.</p> Ifall sidnumret inte är utskrivet men sidan ändå har beaktats i den fortsatta pagineringen anges värdet unprinted i attributet type, 3 och det outskrivna sidnumret införs i n. <pb type="orig"/> Om sidan inte beaktats vid pagineringen införs inget n-attribut. b) originalets paginering, manuskript Paginering som införts av författaren: <p>här slutar s. 53.</p><pb type="author" n="54"/><p>här börjar s. 54.</p> <lg><l>versrad</l><pb type="author unwritten" n="55"/><l>versrad</l></lg> Ifall ett enskilt sidnummer inte är utskrivet men sidan ändå har beaktats i den fortsatta pagineringen, eller om författarens paginering kompletteras av utgivaren, anges värdet unwritten i attributet type, och det oskrivna sidnumret införs i n. Om sidan ifråga inte beaktats vid pagineringen införs inget n-attribut. Paginering införd senare av annan person: <pb type="other" n="22"/> 3 Enligt TEI-riktlinjerna (P5) borde man egentligen använda ett ed-attribut i <pb/>, men vi använder type eftersom attributvärdena syftar på såväl utgåva som enskild sidnumrering. 10
<pb type="other unwritten" n="81"/> Ifall ett enskilt sidnummer inte är utskrivet men sidan ändå har beaktats i den fortsatta pagineringen, eller om manuskriptets paginering kompletteras av utgivaren, anges värdet unwritten i attributet type, och det oskrivna sidnumret införs i n. Om sidan ifråga inte beaktats vid pagineringen införs inget n-attribut. OBS: senare in- och sammanbundna manuskript kan ha dubbel paginering: en ursprunglig av Topelius som löper per häfte, och en senare tillkommen av annan hand som löper per arkivenhet. I ett sådant fall införs bägge pagineringarna på följande sätt: <pb type="author" n="3"/><pb type="other" n="53"/> Ifall ingendera pagineringen har införts av författaren: <pb type="other" n="3"/><pb type="other2" n="53"/> Den första pagineringsserien anges alltså som other, inte som other1. c) Paginering i ZTS: Efter att texten har ombrutits för den tryckta versionen införs vår utgåvas paginering och sidbrytning i kodningen: <pb type="zts" n="8"/> (utskrivet sidnummer) <pb type="zts unprinted" n="15"/> (outskrivet sidnummer) <pb type="zts"/> (sidbrytning; sidan obeaktad vid paginering) Titlar och rubriker Titlar och rubriker kodas med elementet <head>. Ifall en rubrik är fördelad på flera rader och detta inte skett enbart av utrymmesskäl används det tomma radbrytningselementet <lb/> inne i <head>. Observera att <lb/> i så fall inte ska föregås eller efterföljas av blanksteg. Verktitlar och avdelningsrubriker: Verktitlar kodas med <head> (<title>-elementet markerar omnämnda verk, inte rubriker). I <head> anges type="title". Avdelningsrubriker i lyriksamlingar, tidigare och senare delar i romaner och andra liknande sektionsrubriker kodas som type="section". Ex. 1: <head type="title">hertiginnan af Finland</head> Ex. 2: <head type="section">förra afdelningen. Kriget.</head> För eventuella rubriknivåer mellan <head type="section"> och <head> kan <head type="section2">, <head type="section3"> o.s.v. användas. Kapitelrubriker: Ex. 1: <head>1. En middag under den gamla goda tiden.</head> Motton, citat etc. i anslutning till rubrik eller titel: 11
Ex. 1: <head type="motto"><foreign xml:lang="lat">mensis priore lætior, quamquam valde ægrotans.</foreign></head> Rubriker på lägre nivå: För rubriker på lägre nivå än den som kodas med enbart <head> används <head type="sub">, <head type="sub2">, <head type="sub3"> o.s.v. beroende på hur många rubriknivåer det finns. <head type="sub"> kan också beteckna en underrubrik till <head type="title">: Ex. 1: <head type="title"><persname>vernas</persname> rosor.</head><head type="sub">novell.</head> Verk-i-verk: Titlar för verk-i-verk t.ex. Röfvarebandets hjeltevisa. i Läsning för barn kodas med <head type="incorp"> (står för incorporated work). Senare införs ev. också <div>-kodning med vilken själva verket-i-verket avgränsas. Rubriker i brev: Ifall det i ett brev istället för en öppningshälsning finns en rubrik av något slag används <head type="letter">. Brevrubrikerna ska i visningen vara mindre till storleken än vanliga rubriker i andra genrer och specificeras därför med attribut och attributvärde. Grafiska markeringar: Ifall en rubrik eller titel i sin helhet är grafiskt markerad (t.ex. kursiverad) kan attributet rend införas i direkt i <head>. Om rubriken endast delvis är grafiskt markerad används <hi> inne i <head>: Ex. 1: <head rend="italics">1. En middag under den gamla goda tiden.</head> Ex. 2: <head>1. <hi rend="italics">en middag under [...] tiden.</hi></head> Ifall t.ex. en avdelningsrubrik är fetad, och man vill registrera det i kodningen, anges både type och rend i <head>: Ex. 3: <head type="section" rend="bold">förra afdelningen. Kriget.</head> Nytt avsnitt Ifall början på ett nytt avsnitt i originalet har markerats med en blankrad kodas detta enbart med <milestone unit="part"/>. Ingen blankrad ska alltså införas i kodningen. Ifall indelningen i avsnitt i originalet framhävs med en skiljelinje eller ett avlångt ornament anges detta med attributet type, som tilldelas värdet bar: <milestone type="bar"/> Motsvarande streck allra sist i kapitel kan betraktas som dekorationer och återges inte. Textstycken 12
Textstycken kodas med <p>-taggar (paragraph). Originalets radbrytningar kodas endast i de undantagsfall då de uppfattas som betydelsebärande, och då med <lb/>. Textstycke med indrag: <p>några ögonblick derefter lågo de gamle vännerne Severin Björck, benämnd Mösset, och Vincent Ek, benämnd Vågbrytaren, i hvarandras armar.</p> Textstycke utan indrag: (t.ex. i början av ett kapitel) <p rend="noindent">ordentlighet är en mycket berömlig dygd i alla förhållanden, men jag fruktar, att dess hemvist sällan är att söka på en författares skrifbord.</p> Helt indraget textstycke/blockcitat: (samtliga rader indragna) <p rend="parindent">[textstycke]</p> Grafiskt markerade stycken: Ifall ett textstycke är grafiskt markerat i sin helhet (med t.ex. kursivering) får attributet rend enligt vår kodningspraxis inte användas direkt i <p>. Istället införs rend i <hi>: <p><hi rend="italics">[kursiverat textstycke]</hi></p>. Centrerat inslag: <p rend="center">[textstycke]</p> Centrering anges med attributet rend och värdet center. <p rend="center"> innebär att samtliga rader i stycket centreras: flera centrerade rader som utgör en enda mening eller annars kan uppfattas höra till samma stycke kan alltså införas i ett enda <p>-element i vilket radbrytningar (som inte enbart beror på utrymmesbrist) kodas med det tomma elementet <lb/>. Centrerad underskrift, flera rader: <p rend="center"><persname>lars Anton Levonius</persName>,<lb/>Regementspastor.<lb/>(Sigill.)</p> Observera att det inte ska vara några blanksteg kring <lb/>-taggarna. (I brevkodningen standardiseras avslutningar och underskrifternas placering.) Högerställt inslag: <p rend="right">[textstycke]</p> Blankrader: Blankrader som inte markerar början på ett nytt avsnitt kan vid behov införas som ett tomt <lb/>-element. Man ska undvika att återge blankrader i form av tomma <p/>-element eftersom de inte utgör textstycken. Observera att blankrader inte ska införas i kodningen ifall de finns i 13
anslutning till rubriker eller runt diktstrofer: i sådana fall kan standardiserade mellanrum åstadkommas i stilmallarna. Fotnoter och slutnoter Not som tillhör originalet: <note id="ftn1" n="1" place="foot" anchored="true">vid denna tid fortfor man ännu ofta att med Finland mena endast landets sydvestra del, det sedan så kallade Egentliga Finland.</note> Ett id bör förekomma endast en gång i hela XML-filen, därför används för originalets (fot)noter id:n med prefixet ftn och löpande numrering som börjar med 1. Om noten i originalet är belägen längst ner på sidan anges värdet foot i attributet place. För noter i manuskript används attributvärdena foot, leftmargin, rightmargin, topmargin och other, beroende på var noten skrivits in. Om noten i stället är placerad i slutet av hela texten är attributvärdet end. Med värdet true i attributet anchored anges att noten är förankrad i det aktuella textstället med exempelvis asterisk eller nummer. För noter som inte har knutits till ett visst textställe används anchored="false". <note>-elementet har också använts för kodning av utgivarkommentarer (innan det nuvarande kommentarverktyget togs i bruk), men det förvalda värdet är att noten tillhör originalet. Man behöver alltså aldrig explicit ange type="author", type="original" eller motsvarande. Däremot anges i utgivarkommentarer alltid type="editor". Fotnot med asterisk: I OpenOffice.org har vi infört fotnoter med asterisk på följande sätt: [...] brännt på bålet min moder och min mormoder och min moders mormoder?*) 45 Den tillagda numreringen behövs bl.a. för att TEI-filtret automatiskt ska kunna lägga in rätt id i koden, men den synliga numreringen bör avlägsnas från den slutliga koden efter att odt-filen konverterats tillbaka till XML/TEI. Före ett band ska tryckas måste vi sedan införa flera asterisker på de ställen där det blir flera fotnoter på samma sida. I den integrerade visningen med scrollbara dokument i ZTe är det här inget problem: då visas fotnoterna när man pekar på en symbol i texten. Ex. 1: <note id="ftn45" n="*)" place="foot" anchored="true"> Ex. 2: <note id="ftn46" n="**)" place="foot" anchored="true"> id-numret behöver inte sammanfalla med (det eventuella) numret i n som är avsett för visning. Musikaliska noter och matematiska formler Musikaliska noter och mer komplicerade matematiska formler kodas inte utan införs i form av bilder. 14
2.2 Listor, tabeller och kalkyler Uppdaterad 22.2.2012 Listor Listor kodas i ett <list>-element med underordnade <item>-taggar. Ex. 1: <list> <item>1) Statsrådet m.m. Grefve L. Manderström, Stockholm.</item> <item>2) Friherrinnan v. Beskov, Sthm.</item> <item>3) Doktor Herm. Sätherberg, Sthm.</item> <item>4) Professor Aug. Malmström, Sthm.</item> <item>5) Doktor C. A. Wetterbergh, Linköping.</item> <item>6) Prosten G. H. Mellin, Helsingborg, Norra Wram.</item> <item>7) Direktör J. A. Josephson, Uppsala.</item> </list> Ifall hela listan är indragen i originalet anges det i starttaggen med <list rend="indent">. Om listan är försedd med en rubrik anges den i ett <head>-element, som införs genast efter starttaggen <list>: <list> <head>[listrubrik]</head> <item>[...]</item> </list> Ifall listan överskrider en sidgräns kan ett <pb/>-element införas inne i listan, men endast efter att ett <item>-element stängts och före det följande öppnats. Tabeller Tabeller kodas i elementet <table>, och i starttaggen anges antalet rader och kolumner. Efter starttaggen införs en eventuell tabellrubrik i <head>. Tabellens fält kodas i <cell>-element som grupperas radvis med <row>. Tomma fält anges med <cell/>. Rubrikerna för enskilda rader eller kolumner anges med attributet role och värdet label. Att en rad innehåller kolumnrubriker kan anges med <row role="label">. Radrubriker (i den vänstra kolumnen) måste definieras i enskilda fält. Ex. 1: <table rows="3" cols="3"> <head>topelius-tabell</head> <row role="label"> <cell/> <cell>kolumnrubrik 1</cell> <cell>kolumnrubrik 2</cell> 15
</row> <row> <cell role="label">radrubrik 1</cell> <cell>1</cell> <cell>2</cell> </row> <row> <cell role="label">radrubrik 2</cell> <cell>3</cell> <cell>4</cell> </row> </table> Topelius-tabell Kolumnrubrik 1 Kolumnrubrik 2 Radrubrik 1 1 2 Radrubrik 2 3 4 Tabellexempel från Topelius korrespondens: Honorariet utgörande för ark 1 14 Rubel 150 samt för de öfriga 3 ¼ ark à 12 Rubel 39 Summa Rubel 189 Kodas på följande sätt: <table rows="3" cols="2"> <row> <cell>honorariet utgörande för ark 1 14</cell> <cell>rubel 150 </cell> </row> <row> <cell>samt för de öfriga 3 ¼ ark à 12 Rubel</cell> <cell>39 </cell> </row> <row> <cell>summa Rubel</cell> <cell>189 </cell> </row> </table> Ifall tabellen i originalet inte har några linjer runt fälten införs attributet rend med värdet noborder i elementet <table>: 16
Ex. 1: <table rend="noborder" rows="3" cols="2"> Det förvalda värdet för rend (som alltså inte behöver införas) är att fälten är avgränsade med linjer. Kalkyler Kalkyler av olika slag kodas som tabeller: F.mk. 3,540;- 27,44 Sum. 3,567.44 Sådana här kalkyler kodas med rend="noborder" i <table>, men därtill måste det långa strecket införas i en cell som överskrider kolumngränserna och alltså är lika bred som hela raden. Ifall tabellen som i det här fallet är tre kolumner bred måste man i <cell> ange cols="3". Själva strecket åstadkoms genom att man i samma <cell> inför rend="botborder" (det är alltså fråga om en tom cell). Exempeltabellen kodas i tre kolumner och fyra rader på följande sätt: <table rows="4" cols="3" rend="noborder"> <row> <cell/> <cell>f.mk.</cell> <cell>3,540;-</cell> </row> <row> <cell/> <cell> </cell> <cell>27,44</cell> </row> <row> <cell cols="3" rend="botborder"/> </row> <row> <cell>sum.</cell> <cell/> <cell>3,567.44</cell> </row> </table> Ifall tabellen överskrider en sidgräns kan ett <pb/>-element införas inne i tabellen, men endast efter att ett <row>-element stängts och före det följande öppnats. 17
Eftersom det kan förekomma små kalkyler inne i textstycken har vi tillåtit att <table> används innanför <p>-taggar (det är tillåtet också enligt TEI-riktlinjerna). Men visningen av sådana tabeller kan vara problematisk, så inför en redaktionell kommentar <!--table innanför p--> efter tabellkodningen. Klamrar i tabeller En klammerparentes, alltså tecknet }, som utsträcker sig över två eller flera rader byggs upp med hjälp av de bracket pieces som ingår i Unicode-kategorin Miscellaneous Technical. Ifall det bara är två rader som sammankopplas används en s.k. vänstermustasch, 23B0, och en s.k. högermustasch, 23B1. De bör införas som entitetsreferenser, d.v.s. för den ena halvan och för den andra halvan. Den inbördes ordningsföljden beror på om spetsen är svängd åt höger eller åt vänster, alltså { eller }. Det finns också klamrar som sammankopplar innehållet på tre eller flera rader, och entitetsreferenserna varierar också där beroende på åt vilket håll klammern är svängd. Bäst ser man vilka delar man behöver genom att gå till www.unicode.org/charts/pdf/u2300.pdf: för den tredelade klammerparentesen är det antingen 23A7, 23A8 och 23A9 eller 23AB, 23AC och 23AD. Eftersom allt tabellinnehåll visas vänsterställt måste klammerdelarna placeras i en egen kolumn ifall de föregås av text eller siffror, för annars hamnar inte de olika delarna exakt ovanför varandra så att de verkligen bildar en korrekt klammerparentes. Utseendet kan för närvarande inte kontrolleras i Author-vyn, eftersom dessa tecken saknas i vanliga typsnitt såsom Times New Roman eller Arial. 2.3 Grafiska markeringar Uppdaterad 14.11.2011 Grafiska markeringar i originalet kodas med elementet <hi>. Tidigare använde vi både elementen <hi> och <emph> och gjorde skillnad på om markeringen berodde på emfas eller inte, men detta har frångåtts. Inne i <hi> används universalattributet rend för att registrera originalets markering. I stilmallar kan man senare ange t.ex. att kodningens spärrade stil ska visas som kursiv. Grafiskt markerade namn på personer, platser och verk samt inslag på främmande språk kodas i allmänhet inte med <hi> utan direkt med rend, se nedan. Kursivering av ett helt textstycke: <p><hi rend="italics">[textstycke]</hi></p> Kursivering av enskilda ord: <hi rend="italics">[text]</hi> Understrykning: <hi rend="underline">[text]</hi> 18
Dubbel understrykning: <hi rend="underline2">[text]</hi> Understreckning (flera korta streck): <hi rend="dashunderline">[text]</hi> Fetstil: <hi rend="bold">[text]</hi> Fetstil & kursivering: <hi rend="bold italics">[text]</hi> Spärrad stil: <hi rend="expanded">[text]</hi> Spärrat & kursiverat: <hi rend="expanded italics">[text]</hi> Spärrad fetstil: <hi rend="bold expanded">[text]</hi> Antikva (i en frakturtext): <hi rend="romantype">[text]</hi> Spärrad antikva (i en frakturtext): <hi rend="romantype expanded">[text]</hi> Text bestående enbart av versaler eller kapitäler: <hi rend="uppercase">[text]</hi> Inringat: <hi rend="encircled">[text]</hi> Större handstil: <hi rend="encreasedsize">[text]</hi> Upphöjd stil: Originalets 25 te April kodas: 25<hi rend="raised">te</hi> April 19
Nedsänkt stil: <hi rend="sub">[text]</hi> T.ex. ett kommatecken i nämnaren i ett bråktal, eller eventuellt hela nämnaren då den inte anges med entitetsreferenser. Inverterade markeringar: [...] </hi> Detta <hi rend="italics"> [...] Ifall texten i övrigt är t.ex. kursiverad, och ett enskilt ord (enskilda ord) markeras genom rak stil, icke-kursivering, stängs <hi>-elementet före textstället ifråga och ett nytt <hi>-element öppnas efter stället. Grafiskt markerade personer, platser och verk samt främmande språk Samtliga grafiskt markerade namn på personer, platser och verk förses med namnkodning, som för skannade grundtexter ersätter automatiskt genererad <hi>-kodning. Grafiskt markerade uttryck på främmande språk kodas enligt samma princip. OBS: Namn på personer, platser och verk samt uttryck på främmande språk kodas även om de inte är grafiskt markerade i originalet. Se avsnitt 4 Semantisk kodning. Ex. 1: <persname rend="expanded">lewenhaupt</persname> Namn som är grafiskt markerat med spärrning i originalet. Ex. 2: [...]</hi> <title>hamlets</title> <hi rend="italics">[...] Inverterad markering av verktiteln i originalet (t.ex. kursiverat förord i vilket titeln har utmärkts med rak stil). Ex. 3: <title rend="italics">läsning för barn</title> I IV I exemplet har endast Läsning för barn kursiverats i originalet. Ex. 4: <placename><hi rend="expanded">borgå</hi> län</placename> Här är endast Borgå spärrat i originalet, men namnkodningen har avgränsats till Borgå län. Ex. 5: <foreign xml:lang="fre" rend="romantype">parbleu!</foreign> Det franska uttrycket Parbleu! är satt med antikva i en text som annars är satt i fraktur. I utgåvan visas detta med kursiv stil. Utropstecknet kan tas med i kodningen för främmande språk eftersom det är grafiskt markerat på samma sätt och kan anses höra ihop med uttrycket. Ex. 6: Jag tackar för den äran, ehuru <persname rend="romantype">jean Jacques</persName>, som aldrig varit i lappmarken, [...] Efterföljande skiljetecken tas aldrig med i namnkodningen. Om även skiljetecknet är grafiskt markerat och man inte önskar normalisera detta stillatigande måste skiljetecknet förses med egen <hi>-kodning. Universalattributet rend 20
rend är ett s.k. universalattribut, vilket innebär att det inom ramen för TEI får användas i alla element där det kan tänkas behövas. Men eftersom användningen av rend ändå måste beaktas när man gör upp stilmallar är det motiverat att begränsa användningen av attributet i fråga till endast vissa element. Det här berör främst grafiska markeringar som kan anges med samma attributvärden i olika element (rend används ju också för att registrera annat än dessa markeringar, t.ex. styckeindrag). Attributet rend kan införas direkt i ett element om den grafiska markeringen står i samband med det som definieras i elementet, t.ex. om det är fråga om en rubrik (<head>), ett namn (t.ex. <placename>) eller ett ord eller uttryck på främmande språk (<foreign>). Det är ändamålsenligare att koda understrukna tillägg som <add><hi rend=""> än <add rend="">, för annars skulle man i stilmallarna vara tvungen att beakta att rend också kunde förekomma i <addspan/>, <subst>, <del>, <print>, <item>, <cell> o.s.v. OBS 1: rend kan ifråga om grafiska markeringar införas direkt i <date>, <dateline>, <foreign>, <head>, <hi>, <persname>, <placename>, <title> och <trailer>, men inte i andra element OBS 2: Ifall ett stycke är kursiverat i sin helhet (t.ex. i ett förord), och enskilda ord dessutom är spärrade kodas detta <p><hi rend="italics">ord ord ord ord <hi rend="expanded italics">ord ord</hi> ord ord ord.</hi></p>. XML är visserligen hierarkiskt uppbyggt, men i vår kodning betyder rend="expanded" att den markerade texten endast är spärrad, alltså upphävs det rend-värde som har angetts på en högre nivå, i praktiken i <hi> innanför <p>. 2.4 Speciella tecken Uppdaterad 22.2.2012 Förbjudna tecken Tecken som har en särskild betydelse inom XML kan inte införas som sådana ifall de ingår i själva texten, eftersom de alltid uppfattas som en del av en kod. De anges istället med s.k. entitetsreferenser: & införs som & (ampersand) < införs som < (less than) > införs som > (greater than) ' införs som ' (apostrophe) " införs som " (quotation mark) Observera ändå att vi i texten inte använder raka citattecken, alltså ' och ", utan typografiska dito: och, vilka kan införas som sådana. I kodningen måste man däremot alltid använda raka citattecken för attributvärden. I praktiken finns alltså endast tre förbjudna tecken som måste införas med entitetsreferenser. Entitetsreferenser består av ett entitetsnamn (eller tecknets Unicode-nummer) som föregås av 21
ett &-tecken och efterföljs av ett semikolon. I Oxygen lägger man till de förbjudna tecknen genom att dubbelklicka på dem i menyn Entities (en flik i menyn Elements) eller genom att skriva in dem för hand. Ex. 1: Texten läst & skrifvit anges i XML som läst & skrivit. Entitetsreferensen innehåller ett entitetsnamn. Ex. 2: > Entitetsreferens med ett hexadecimalt Unicode-nummer som bör föregås av #x. Brädgårdstecknet anger att det är fråga om ett nummer, och bokstaven x anger att numret är hexadecimalt. OBS: För de förbjudna tecknen använder vi entitetsnamnen (som i ex. 1) och inte Unicodenumren (som i ex. 2). Specialtecken Många specialtecken som vi har användning för kan införas som sådana i XML-filerna, dock inte alla tecken som ingår i Unicode. I avsnitt 9.2 finns en förteckning över tecken som kan införas som sådana. Observera att också kyrilliska och grekiska bokstäver kan införas som sådana, även om de inte ingår i förteckningen. Ev. arabiska bokstäver torde vi däremot vara tvungna att införa i form av entitetsreferenser. När man inför specialtecken i XML-editorn bör man vara noga med att införa rätt tecken, och inte något annat tecken som ser ungefär likadant ut. Även ifråga om tecken som måste anges med numerisk entitetsreferens är det till fördel om alla alltid använder samma tecken för samma ändamål, därför finns i 9.2 också en förteckning över sådana tecken. Ifall ett tecken kan införas som sådant bör man också helst göra det, och inte använda entitetsreferens. Detta för att XML-filerna ska bli så lättlästa som möjligt, med tanke på det fortsatta redaktionella arbetet och kanske också med tanke på användare som vill studera den kodade filen. I uppsättningen Unicode ingår ett ytterst stort antal tecken, över 100 000. I XML-editorn ser man det hexadecimala Unicode-numret på det tecken som man står i beråd att införa, och det är skäl att kontrollera att det faktiskt är fråga om t.ex. ett vanligt tankstreck och inte något annat streck som ser liknande ut. Det gör man genom att jämföra med Unicode-numret för det tecken man är ute efter i förteckningen över specialtecken. För att införa ett specialtecken i Oxygen väljer man Edit/Insert from Character Map... Om man skriver in Unicode-numret på det tecken man är ute efter i rutan Character code och väljer hexadecimal kommer rätt tecken upp med en gång. Sedan väljer man att antingen införa tecknet som sådant eller som hexadecimal entitetsreferens. Insert placerar tecknet där kursorn är och Copy håller tecknet i minnet tills man klistrar in det. Observera att om det hexadecimala Unicode-numret börjar med två nollor är de inte nödvändigtvis utskrivna i XML-editorn. 22
Som tankstreck använder vi en dash ( ) med Unicode-nummer 2013, i Unicode-kategorin General punctuation. Minustecknet, som ser annorlunda ut än tank- och bindestreck, har Unicode-nr 2212. Det typografiska citattecken vi använder har namnet rdquo och nummer 201D. Det enkla typografiska citattecknet, apostrofen, betecknas rsquo och har nummer 2019. Även de båda citattecknen ingår i Unicode-kategorin General punctuation. Som upprepningstecken används en ditto med nummer 3003 (i Cjk symbols and punctuation), som vid behov kan kombineras med tankstreck före och efter. Dittotecknet syns tyvärr inte i alla teckensnitt och saknas t.ex. i Arial och Times New Roman. OBS 1: För specialtecken använder vi inte namnet i referensen utan det hexadecimala Unicodenumret (ex. œ). OBS 2: Specialtecken kan också införas med hjälp av Windows teckenuppsättning, som öppnas via Start-menyn och antingen Kör... eller Sök, där man skriver in charmap. Hårt blanksteg och smalt hårt blanksteg Bl.a. för tusental som skrivs med blanksteg och tal som efterföljs av procenttecken måste man förbjuda radbrytning. Det sker genom att man ersätter det vanliga blanksteget med entitetsreferensen för antingen vanligt hårt blanksteg eller smalt hårt blanksteg. Vanligt hårt blanksteg (no-break space) ingår i Unicodes kategori Latin-1 Supplement och har entitetsreferensen. Det används t.ex. i förkortningar och mellan initialer i originaltexten, samt före procenttecken: 5 % bör alltså införas som 5 %. Det är också möjligt att införa hårt blanksteg som sådant i XML-editorn, men med tanke på senare granskningar av kodningen är det bättre att det tydligt framgår att hårt blanksteg har införts. Oxygen visar emellanåt hårt blanksteg som en haksymbol och smalt hårt blanksteg som en fyrkant, så att man inte längra kan hitta ställena genom att söka på t.ex. 00A0, men informationen finns fortfarande kvar i filen och visas korrekt vid omvandling till annat format. Ex. 1: satt up till kl. ½ 12 Ex. 2: <persname>c. K.</persName> sprang sedan till policen Ex. 3: Märkdagarna på finska runstafven beteckna dels högtider, dels sånings-, skörde-, fiskedagar o. s. v. Enligt praxis för Topelius tid skrivs originaltextens förkortningar med mellanslag: o. s. v. och inte som i dag o.s.v. eller osv. För att en radbrytning inte ska kunna ske mitt i förkortningen används hårda blanksteg i stället för vanliga. Det kan vara lättare att först skriva alla förkortningar med vanliga mellanslag och sedan med hjälp av sök och ersätt byta ut t.ex. alla o. s. v. till o. s. v. Smalt hårt blanksteg (narrow no-break space) finns i Unicode-kategorin General Punctuation och har entitetsreferensen. Det används för tusental som skrivs med blanksteg i originaltexten, i normaliserade sifferuppgifter samt mellan initialer i redaktionella texter, alltså inledningar och kommentarer. Smalt hårt blanksteg används inte om grundtexten är en handskrift. 23
Bråktal De vanligaste bråktalen kan införas som sådana, d.v.s. som ett enda tecken. Detta gäller följande bråktal: ½, ¼, ¾, ⅓, ⅔, ⅛, ⅜, ⅝ och ⅞. Därtill finns tecken för femtedelar, en sjättedel samt fem sjättedelar, men dessa syns emellertid varken i XML-editorn eller ordbehandlaren och bör därför införas med entitetsreferens. Ex. 1: en femtedel införs som ⅕ Se 9.2 Specialtecken som måste anges med numerisk entitetsreferens. Jämna åttondelar, alla sjättedelar förutom de ovannämnda och andra ovanliga bråktal måste återges som en kombination av flera tecken eller entitetsreferenser (inga blanksteg!). Det finns ett speciellt bråkstreck för ändamålet, nämligen fraction slash med entitetsreferensen. Det föregås av en eller flera siffror i upphöjt läge (superscript) och efterföljs av en eller flera siffror i nedsänkt läge (subscript). Siffrorna finns i Unicodes kategori Superscript and subscript. De syns inte i XML-editorn och bör därför införas i form av entitetsreferenser. Detta med undantag för tvåan och trean i upphöjt läge som ingår i kategorin Latin-1 och därmed kan införas som sådana. Bråkstrecket, som lutar litet mer än det vanliga snedstrecket, finns i General Punctuation. Det kan införas som sådant, men om man vill vara konsekvent kan man införa hela bråktalet i form av entitetsreferenser. Då ser man också tydligt att rätt snedstreck har använts. Ifall man inför snedstrecket som sådant bör man vara uppmärksam på att det inte blir något blanksteg före eller efter tecknet ifråga. Ex. 1: 2/7 införs som a) ² ₇ b) ² ₇ eller c) ² ₇ Ex. 2: 6/8 införs som a) ⁶ ₈ eller b) ⁶ ₈ OBS 1: Det finns också ett skilt tecken med täljaren 1 och bråkstrecket, nämligen fraction numerator one med entitetsreferensen ⅟. Det finns i Unicodes kategori Number Forms och bör införas i form av en entitetsreferens eftersom det inte syns i XML-editorn. Ex. 1: För att koda 1/9 behövs alltså endast två entitetsreferenser: ⅟₉ OBS 2: När ett kommatecken ingår i täljaren och/eller nämnaren (tal större än 999) används ett vanligt kommatecken som innesluts i <hi rend="raised"> eller <hi rend="sub">. Alternativt kan man använda vanliga siffror och inkludera täljaren och nämnaren i sin helhet i <hi rend="raised"> respektive <hi rend="sub">. 24
25
3 Manuskriptbeskrivande kodning 3.1 Allmänna textuella företeelser Uppdaterad 24.1.2012 Paginering, rubriker, stycken och fotnoter Se Kodning av allmänna textuella företeelser, avsnitt 2.1. Listor, tabeller och kalkyler Se Kodning av allmänna textuella företeelser, avsnitt 2.2. Grafiska markeringar Se även Kodning av allmänna textuella företeelser, avsnitt 2.3. Enkel understrykning: <hi rend="underline">[text]</hi> Dubbel understrykning: <hi rend="underline2">[text]</hi> Understreckning: <hi rend="dashunderline">[text]</hi> Används när texten har markerats med flera korta streck. Inringad text: <hi rend="encircled">[text]</hi> Större handstil: <hi rend="encreasedsize">[text]</hi> Text bestående enbart av versaler eller kapitäler: <hi rend="uppercase">[text]</hi> OBS: Understrykningar och understreckningar införs i kodningen utgående från vad man kan sluta sig till att har varit skribentens avsikt: som regel kodas alltså ett ord i sin helhet som understruket, även om strecket är litet kortare än ordet. Om understrykningen ser ut att gälla även ett efterföljande skiljetecken kodas tecknet som understruket endast om det verkligen kan anses höra till den markerade texten. Ifall en mening är understruken i sin helhet inkluderas alltså också det avslutande skiljetecknet, och samma gäller för anteckningar som består av ett enda understruket ord samt punkt, utropstecken eller frågetecken. Ex. 1: Ett ord och ett komma är understrukna, men kommat anses inte höra till markeringen, även om det kan se så ut. Meningen kodas: Ett ord och ett komma är <hi rend="underline">understrukna</hi>, men kommat anses inte höra till markeringen, även om det kan se så ut. 26
Ex. 2: <hi rend="underline">finska folkets historia är i väsendet ingenting annat än dess utveckling till nationalmedvetande.</hi> I en mening som är understruken i sin helhet kodas också slutpunkten som understruken. Ex. 3: <p rend="noindent"><date when="1833-05-29">29. <hi rend="underline2">onsdag.</hi></date> steg up kl. 9. [...]</p> Understruken anteckning bestående av ett enda ord samt punkt. Ex. 4: <item>3) <hi rend="underline">permska grenen</hi>: <hi rend="underline">permier</hi>, <hi rend="underline">syrjäner</hi>, <hi rend="underline">wotjaker</hi>, samt</item> Kolonet hör inte på ett avgörande sätt ihop med uttrycket Permska grenen, och kommatecknen hör inte till folkslagen. Ex. 5: <p><hi rend="underline">repet.</hi> <date when="1871-09-29">29/9 71.</date> Vattuminskn. Städer. Sjökort. [...]</p> Punkten kodas som understruken trots att den inte är en slutpunkt, eftersom den markerar en förkortning och därför hör ihop med det understrukna ordet. Speciella tecken Se Kodning av allmänna textuella företeelser, avsnitt 2.4. 3.2 Datering och tillkomstort Uppdaterad 25.4.2012 Manuskriptdateringen med eventuell tillkomstort införs i ett <dateline>-element, förutsatt att det är fråga om en fristående datering, t.ex. på en egen rad sist i ett diktmanuskript eller som en fristående datering av ett förord till ett verk. Själva tidsangivelsen införs i ett <date>element, som är underordnat <dateline>. För datumangivelser som på ett eller annat sätt har integrerats i själva texten, som en del av en rubrik på en föreläsning eller i början av en repetitions- eller dagboksanteckning, används enbart <date>. Sådana datum räknas inte heller som egentliga manuskriptdateringar. Övriga datum inne i löpande text kodas inte alls. Ex. 1: <dateline><date when="--06-18">18 Juni</date> <lb/><placename>janakkala<placename></dateline> Observera att elementet <lb/> bör användas ifall det förekommer radbyten i den text som markeras med <dateline> eller <date>, förutsatt att radbytena inte beror enbart på utrymmesbrist. Ifall veckodag anges inkluderas denna inte i <date> utan enbart i <dateline>: Ex. 2: <dateline>fredagen <date when="--04-15">den 15 April.</date></dateline> <dateline> bör användas även om manuskriptdateringen i sin helhet kan inkluderas i <date>. En ev. avslutande punkt kan inkluderas i <date> ifall det inte finns någon övrig text efter själva datumet. 27