PROJEKTRAPPORT FÖR TOMTEBISSEN En digitalisering av barnboken Sagan om Anna-lill och den trogne Tomtebissen av Carl Hellström. http://www.arkeologiservice.se/tomtebissen Projektmedlemmar: Jessica Karlsson, Rikard Schaffer, Christina Schierman Digitalisering av kulturarvet Högskolan i Borås VT 2008
1 Inledning...3 1.1 Syfte...3 1.2 Mål för projektet...3 2 Uppstart och projektplanering...3 2.1 Beskrivning och arbetsfördelning...3 2.1.1 Val av digitaliseringsobjekt...3 2.1.2 Kulturhistorisk bakgrund...4 2.1.3 Upphovsrätt...4 2.1.4 Projektplanering och tidsplan...4 2.2 Erfarenheter...6 2.3 Tidsåtgång...7 2.4 Teknisk utrustning...7 3 Bildfångst...7 3.1 Beskrivning och arbetsfördelning...7 3.2 Erfarenheter...7 3.3 Tidsåtgång...8 3.4 Teknisk utrustning...8 4 Digitalisering av bild...8 4.1 Beskrivning och arbetsfördelning...8 4.1.1 Faksimil...9 4.1.2 Diplomatarisk bild...10 4.1.3 Normaliserad bild...11 4.2 Erfarenheter...11 4.3 Tidsåtgång...12 4.4 Teknisk utrustning...12 5 Digitalisering av text...12 5.1 Beskrivning och arbetsfördelning...12 5.1.1 DTD...13 5.1.2 Uppmärkning i TEI...14 5.2 Erfarenheter...18 5.3 Tidsåtgång...18 5.4 Teknisk utrustning...18 1
6 XSLT...19 6.1 Beskrivning och arbetsfördelning...19 6.1.1 Målsättning med XSL som grundmall...19 6.1.2 Målsättning med XSL i projektet Tomtebissen...20 6.1.3 Problem och lösningar med bildhantering i xsl-mallarna...21 6.1.4 Avvägningar i olika versioner...23 6.2 Erfarenheter...25 6.3 Tidsåtgång...25 6.4 Teknisk utrustning...25 7 Webb...26 7.1 Beskrivning och arbetsfördelning...26 7.2 Erfarenheter...26 7.3 Tidsåtgång...26 7.4 Teknisk utrustning...26 8 Projektrapport och resursfördelning...27 8.1 Beskrivning och arbetsfördelning...27 8.2 Tidsåtgång och resursfördelning för alla moment...27 8.3 Erfarenheter...28 9 Slutsatser / egna reflektioner...29 10 Fortsättning...30 11 Sammanfattning...30 12 Referenser...31 Bilaga 1 Bildtabeller...34 Bilaga 2 Resursfördelning...35 Bilaga 3 Kostnadsberäkning...36 2
1 Inledning Denna projektrapport beskriver arbetet med digitalisering av barnboken Sagan om Anna-lill och den trogne tomtebissen av Carl Hellström. Digitalisering har genomförts inom ramen för kursen Digitalisering av kulturarvet vid Högskolan i Borås vårterminen 2008, en distanskurs på halvfart motsvarande 15 högskolepoäng. Projektgruppen har bestått av tre medlemmar bosatta i Stockholm: Jessica Karlsson, Rikard Schaffer och Christina Schierman. Efter varje moment i denna rapport redovisas nedlagd tid. Här tillkommer viss tid för administration och projektrapportarbete. I avsnitt 8 (projektrapport och resursfördelning) finns en komplett sammanställning över total nedlagd tid i projektet. 1.1 Syfte Syftet med att digitalisera Sagan om Anna-lill och den trogne tomtebissen är att transkribera texten och göra uppmärkning i TEI. Vidare är syftet att bearbeta bokens bilder. Sedan ska sagan med hjälp av XSLT-transformationer publiceras digitalt på webben. Syftet med projektrapporten är att utförligt redogöra för varje delmoment, så att dokumentationen kan användas för kommande digitaliseringsprojekt. 1.2 Mål för projektet Målsättningen, förutom att vara inom ramen för kursen, är att tillgängliggöra en tämligen svåråtkomlig bok för allmänheten. På sikt bidrar detta till att de fåtal exemplar av boken som idag finns tillgängliga för allmänheten kan bevaras för framtiden samtidigt som fler kan få åtkomst till boken via webben. Projektet riktar sig främst till litteraturvetare med inriktning på barnböcker samt konsthistoriker och intresserade av sekelskiftets (1800-1900-talet) framställning av samhället. 2 Uppstart och projektplanering 2.1 Beskrivning och arbetsfördelning 2.1.1 Val av digitaliseringsobjekt Jessica presenterade en idé redan under första kursträffen i Borås - en barnbok från 1800-talet med text och bild. Vid hemkomst kände vi tveksamheter till vald bok då den var i dåligt skick samt att textmängden var mer omfattande än vi hade trott. Jessica presenterade ett nytt förslag, det aktuella digitaliseringsobjektet, och vi valde den istället. Efter första kursträffen i Borås ordnades ett första projektmöte vid Stockholms universitetsbibliotek 2008-02-06. Tillsammans drogs de första riktlinjerna upp för projektplaneringen. Christina ordnade lokal samt författade grunden till projektplanen och upprättade mötesprotokoll. Jessica ordnade digitaliseringsobjektet samt besökte Kungliga biblioteket för att jämföra projektets utgåva med andra exemplar. Jessica 3
meddelade också Borås högskola om valt digitaliseringsobjekt. Rikard plockade fram underlag i biblioteket för att vi skulle få en första kulturhistorisk bakgrund. 2.1.2 Kulturhistorisk bakgrund Ansvarig: Jessica. Under de första efterforskningarna kring boken blev vi varse om att detta var en tämligen okänd barnbok som var föga representerad på biblioteken runt om i landet. En sökning i LIBRIS gav endast 3 träffar, Kungliga biblioteket, barnboksinstitutet samt Örebro Universitet. Carl Hellström var också han en doldis, på kungliga biblioteket visste man t ex inget om författaren. Därför kändes det relevant att få med ett kulturhistoriskt avsnitt där boken kunde sättas in i sitt tidsmässiga sammanhang med förhoppningen att skapa ett mervärde kring denna bok. Vi ansåg också att det kunde vara intressant att undersöka bokens kondition i förhållande till de övriga exemplaren. 2.1.3 Upphovsrätt Ansvarig: Rikard Tomtebissen projektet baserar sig på barnboken Sagan Om Anna-Lill och den trogne Tomtebissen skriven och illustrerad av Carl Hellström (1841-1916). Då Carl Hellström varit avliden i mer än 70 år efter verkets tillkomst är det fritt att använda materialet i boken. De digitala text- och bildfiler vi har skapat och publicerat på nätet får fritt användas av andra efter kontakt med detta projekts medlemmar. 2.1.4 Projektplanering och tidsplan Ansvarig: Christina För att gruppen lättare skulle kunna kommunicera upprättades en gemensam e-postadress (tomtebissen@holm.it) samt en google-grupp (http://groups.google.com) där vi kunde lägga upp filer som alla kunde få åtkomst till. Christina ordnade e-postadressen och Rikard ordnade googlegruppen. Tidigt upprättades också en webb area där arbetet presenteras (http://www.arkeologiservice.se/tomtebissen), vilket redogörs för under avsnittet om Webb. Som hjälp till projektplanen tog Christina fram en mall för projektplanering där aktiviteter och tidsåtgång listades. Använd mall är ett s.k. GANT-schema där man kan lista alla aktiviteter och när varje moment beräknas starta respektive avslutas. Använt program var Microsoft Office Visio 2003. För att lättare kunna identifiera projektets risker, föreslog Christina att vi skulle upprätta en SWOT-analys. En SWOT-analys används ofta inom marknadsföring för att identifiera olika delar ett projekt är beroende av (SWOT = Strength/styrka, Weakness/svaghet, Opportunity/möjlighet, Threat/hot). Styrka och svagheter omfattar främst gruppens inre faktorer medan möjligheter och hot omfattar yttre faktorer. En styrka kan således vara att en gruppmedlem har tidigare erfarenheter av webbprogrammering medan en svaghet kan vara att ingen i gruppen har någon erfarenhet av webbprogrammering. Ett yttre hot kan vara att någon äger rättigheterna till digitaliseringsobjektet. 4
Grunden till projektplanen gjordes under första projektmötet och Christina skickade det första utkastet till var och en. Därefter fick varje deltagare fundera över och fylla på i planen. Christina sammanfattade projektplanen och ansvarade för att den skickades in. Under vårt andra projektmöte 2008-02-13 fastslogs en projektorganisation med en övergripande projektledare med olika ansvariga för projektets delprojekt. Projektledare (övergripande) Christina Delprojekt Text Jessica Delprojekt Bild Christina Delprojekt Webb Rikard Figur 1. Projektorganisation för "tomtebissen". Som övergripande projektledare utsågs Christina, med ansvar för övergripande organisation och dokumentation samt uppföljning av projektplanen. Varje gruppmedlem fick varsitt ansvarsområde där var och en skulle ansvara för delprojektets projektplan och dokumentation. Jessicas huvudansvar var för text, Christinas för bild och Rikards för webb. Målsättningen var ändå att alla skulle vara inblandade i alla moment. Tidigt upprättades en plan för planerade moment samt tidsåtgång, vilken finns angiven i projektplanen (http://www.arkeologiservice.se/tomtebissen/projektplan_tomtebissen.pdf). En bit in i projektet kompletterades den med ytterligare moment. PROJEKTPLANERING TOMTEBISSEN 1 Projektplanering 2 Upphovsrättslig bakgrund 3 Research om boken och författaren 4 Kulturhistoriskt avsnitt 5 Projektdokumentation 6 Bildfångst (skanning, foto) 7 Faksimilversion från.tiff till.jpg 8 Texttranskribering i word 9 Textnormalisering/modernisering 10 Gemensam bildtest 11 Möte för bildstrategi efter bildtestet 12 Bildbehandling 13 Projektmöte angående textuppmärkning 14 Uppmärkning av text i XML-TEI 5
15 Korsgranskning av text 16 Upprättande av teiheader 17 XSLT-mallar 18 Textfil (TEI) till XSLT diplomatarisk 19 Textfil (TEI) till XSLT normaliserad 20 Slutfiler XML (TEI), XSLT, XHTML, CSS. Validation. 21 Slutfiler XML (TEI), XSLT, XHTML, CSS. Metadata (dolt, synligt) 22 Webbplats layout 23 Projektrapportering 24 Framställning av presentation 25 Slutseminarium 26 Projektutvärdering Tillkommande punkter Skapande av DTD med Pizza-chef Textfil (TEI) till bilder/rim PDF DTD PDF XML PDF XSLT PDF CSS PDF Projektplan PDF Projektrapport Framtagning av webb area Strategimöte för XSL Strategimöte för Webbplatsen Sammanläggning text Uppdatering projektplan 2.2 Erfarenheter Det först valda projektobjektet visades vara i dåligt skick och problematiskt. Valet blev ett annat, vilket denna rapport beskriver. Tack vare Jessicas snabba agerande och kontroll av det första upphovsrättsliga läget kunde vi ändå komma igång fort. Att upprätta en s.k. SWOT-analys insåg vi rätt snart var svårt då det i början av projektet var svårt att veta vilka svagheter eller hot som kan förekomma under den här typen av projekt. Vi valde istället att fokusera på projektets risker och dess möjliga lösningar i stället. Däremot är rekommendationen att upprätta en sådan i kommande digitaliseringsprojekt för att bättre kunna identifiera projektets svagheter, styrkor, möjligheter och hot. Valet att lista alla aktiviteter och föreslagen tidsåtgång för varje aktivitet gav oss en bra överblick över projektplaneringen. Vartefter arbetet fortlöpte blev det mer och mer tydligt att många moment hängde ihop och var beroende av varandra. T.ex. så var arbetet med XSL-mallar helt beroende av att texten var uppmärkt. XSL-mallarna med tillhörande CSS-filer för layoutmässiga detaljer kan också till viss del vara beroende av hur huvudwebben (platsen där arbetet ska presenteras) ser ut, så rekommendationen är att tidigt arbeta fram en bra grundstruktur för hemsidan. Tidsplanen har löpande följts upp och justerats. En del aktiviteter har tagit mer tid än planerat. 6
2.3 Tidsåtgång Projektmöte 2008-02-06 3,5 tim x 3 personer = 10tim30min Jessica, Rikard, Christina Projektmöte 2008-03-10 2,5 tim x 3 personer = 7 tim30min Jessica, Rikard, Christina Projektmöte 2008-04-21 3 tim x 3 personer = 9 tim Jessica, Rikard, Christina Mötesprotokoll 7 tim Christina Framtagning av boken, upphovsrättskontroll 1 tim Jessica Projektplan 7 tim Christina Projektadministration 17 tim 45min Christina 2 tim Rikard 1 tim Jessica 2.4 Teknisk utrustning Microsoft Office-paketet Microsoft Office Visio 2003 Google-group (http://groups.google.com) 3 Bildfångst 3.1 Beskrivning och arbetsfördelning Ansvarig: samtliga. Vid en gemensam träff gjordes skanningen av boken. Vid samma tillfälle tog Christina fotografier 1 på boken, dels varje sida med bild och text och dels på varje uppslag av boken. Kameran placerades på stativ, boken lades ut på en ljus bakgrund och extra ljuskällor (förutom fönster med dagsljus) placerades i anslutning till fotograferingsplatsen. De skannade 2 bilderna gjordes i 24 bitars färgdjup (maximalt) där kontrasten sattes till 42 och sparades i okomprimerat.tiff-format. Bilderna med kameran togs i raw-format (kamerans inbyggda.nef) med manuella inställningar. 3.2 Erfarenheter Första målet var att träffas vid Stockholms universitetsbibliotek för en gemensam skanning av boken. Christina skulle ta med en egen skanner, som hon hade kollat med Jan Buse vid Borås Högskola att den skulle fungera för vårt projekt. Efter ett flertal tester hemma visade sig att skannern hade en trasig komponent och kunde därför inte skanna färgbilder. Christina kollade med Högskolan i Borås ifall skanningsmöjligheter kunde finnas där vid kursträff 2, men inga sådana möjligheter fanns. Vi ville också per omgående få boken bildfångad för att kunna komma igång snabbt med projektet. Rikard hade också en skanner, men den tog enbart A4 1 Kamera: Nikon D80, objektiv DX AF-S Nikkor 18-135 mm. 2 Scanner: Brother DCP 7010. Copier Printer Scanner. 7
format. Den aktuella boken är något större än A4, varvid Rikard och Jessica undersökte andra möjligheter. Christina kollade även med Högskolan i Borås och beroende på vår målsättning och målgrupp med projektet kunde en A4 fungera. Vi valde således att använda Rikards skanner samt att även bildfånga boken med hjälp av en systemkamera. De olika metoderna för bildfångsten har medfört en kvalitetsskillnad mellan faksimilen, där kamera har använts för att få med hela boken, och den diplomatariska och moderniserade versionen där det har varit möjligt att skanna in enbart bild och text. Beslutet att använda olika metoder får anses vara en nödlösning men har varit befogat för att få ut det mesta möjliga av de olika versionerna. 3.3 Tidsåtgång Projektmöte 2008-02-13 5 tim 15 min x 3 personer = 15 tim 45 min med skanning och foto Jessica, Rikard, Christina Protokoll projektmöte 2008-02-13 1 tim Christina Förberedande skanning 5 tim 30 min Christina 1 tim Rikard Förberedande foto 2 tim Christina 3.4 Teknisk utrustning Scanner: Brother DCP 7010. Copier Printer Scanner. Bildfångst med 24 bitars färgdjup (maximalt),.tiff-format okomprimerat. Kontrast satt till 42. 1 referensskanning gjordes med färgskala. Kamera: Nikon D80, objektiv DX AF-S Nikkor 18-135 mm. Bildfångst i RAW format, manuella inställningar. Adobe Photoshop CS3 extended Adobe Photoshop 7.0 4 Digitalisering av bild 4.1 Beskrivning och arbetsfördelning Huvudansvarig för bildhanteringen är Christina, men varje gruppmedlem har haft sitt eget ansvarsområde. Vid andra projektmötet (2008-02-13) fördelades boken på 3 lika delar. Vi valde en gemensam bild (s. 3) för att vi var och en skulle testa olika bildredigeringar. Detta för att ha som underlag för en gemensam bildstrategi om hur vi ska hantera varje bild. Bilderna från boken skulle omarbetas i olika versioner en faksimil, en diplomatarisk och en normaliserad/moderniserad. Valet gjordes till sist att Jessica ansvarade för faksimilen, Christina för diplomatariska bilder och Rikard för normaliserade bilder. Bokomslaget presenteras endast som faksimil. 8
4.1.1 Faksimil Ansvarig: Jessica Bokens format på 32x23 cm överskred kapaciteten hos skannern för hemmabruk vilket gav oss svårigheter vid bildfångsten av faksimilen. Lösningen fick bli att använda fotoutrustning, vilket inte bara fick negativa konsekvenser för bildernas skärpa utan också bidrog till en försämrad kvalitetsskillnad mot den diplomatariska och moderniserade versionen där skanner har använts. Utgångspunkten för den digitala faksimilen har varit att så långt som möjligt återge bokens färger och skick som den ter sig i verkligenheten, dvs. vara trogen originalet, en uppgift som inte är helt enkelt utan tillgång till en fotostudio med konstant ljusflöde. Vi valde här att fotografera i dagsljus mot en vit bakgrund. Vid bearbetning av bilderna i Photoshop upptäcktes gradvisa skillnader i exponeringen mellan de olika bilderna vilket förmodligen berott på faktorer såsom solens gång och molnbildning. Detta har bearbetats manuellt i RAW-formatet vilket medför en rad osäkerhetsfaktorer. Ett stort problem är att färgerna skiftar starkt beroende på om de betraktas i dagsljus eller under lampsken, detta gäller inte bara originalet utan också för bildskärmen. Utifrån de givna förutsättningarna måste vi därför reservera oss för eventuella olikheter gentemot originalet. Bildhanteringens moment har bestått i att öka exponeringen samt att beskära dem från överflödig information såsom den underliggande duken. Bokens geometriska proportioner är aningen förvrängda p.g.a. fotograferingsvinkeln vilket blir extra tydligt efter beskärningen. För att vara trogen originalet har jag undvikit åtgärder såsom att vrida på bilden. I syftet att göra filformatet hanterbart för webbpublicering togs beslutet att endast visa sidor med bild och textinformation, synligt på uppslagets högra blad. Helsideuppslaget med blanksida visas därför endast som tumnagel. Efter att ha sparat den beskurna bilden i TIFF-format har formatet minskats. Bilderna har sparats i filformatet jpeg som lågupplösta bilder (72 dpi) med en fast höjd på 800 pixlar. Bilderna sparades efter att ha testat mig fram med 90 % kvalitet. Då inga synliga förändringar i bilden kunde iakttas då formatet minskades kunde detta motiveras utifrån den positiva effekten på filstorleken. Bildstorlek och filstorlek redovisas i Bilaga 1 Bildtabeller. Filbenämningar har gjorts enlig principen: TBfak1 (=Tomtebissen faksimil version sidan 1). Bildfångsten av faksimilen skedde i två omgångar. I den första omgången fotograferades endast sidorna med bildinnehåll medan vi i andra omgången fotograferade helsideuppslagen. Helsideuppslagen var av sämre kvalitet men fungerade bra för att skapa tumnaglar. Här fastställdes höjden på 150 pixlar. 4.1.1.1 Faksimilproblem och lösningar: Försök gjordes även till att möjliggöra ytterliggare förstoring genom att dela upp bilden i 4 segment. Denna idé slopades då den positiva effekten av segmenten slogs ut av att överskådligheten i bilden och dess innehåll försvann. Att gå ifrån rutnätsindelningen och göra en fri indelning visade sig vara svårt samtidigt som vi ville undvika alltför tunga filer. 9
4.1.2 Diplomatarisk bild Ansvarig: Christina Syftet med den diplomatariska versionen har varit att vara originalet troget. Därför har inga större bildretuscheringar gjorts. För bildredigering av normaliserad version användes Adobe Photoshop CS3 extended, english version. Utgångsbilderna har varit.tiff bilderna från skanningen. Valet gjordes att bildhantera försättsbladet samt påföljande 15 sidor med bild och text. Huvudsyftet var att kunna återge bilderna på en sida som liknar bokoriginalet alltså på en gul-beige bakgrund. För att få detta att fungera bra valdes att bakgrunden på bilderna togs bort dvs. bilden lyftes bort från bokpappret. Eftersom försättssidan bestod av både bild och text, där texten var mycket stiliserad, valdes därför att hantera denna som en bild. Bakgrunden togs bort och texten förstärktes. För att behålla kvalitén med bättre färgdjup på försättssidan valdes att spara i png24- format. De resterande sidorna gjordes i huvudsak enligt följande: Tiff-bilden duplicerades och sparades om som.psd. Bilden beskars. Justeringslager levels. 12 / 1,0 / 245 Bakgrunden togs bort i eget lager med magic eraser tool med olika tolerance. Justeringslager color -20 / 0 / 0 Hela bilden städades med eraser tool. Hit sparades befintligt.psd-format För att spara i annat format: Bildstorleken ändrades till upplösning 72px Skärpa lades på bilden i eget lager. Filter / Sharpen / unmask: 50% / 2,0 / 1,0 Bilden sparades för webb i.png 8 (för att behålla transparens), 256 färger, transparent diffusion. Matte bakgrundsfärg: eyedropper = samma färg som bakgrunden i boken (RGB 238 / 216 / 187). Filer skapade: TBdipX.psd / TBdipX.png I vissa bilder gick texten in i själva bilden. Där användes clone stamp för att ta bort texten i bilden. Filbenämningar har gjorts enlig principen: TBdipfor (=Tomtebissen diplomatarisk version försättsblad), TBdip1 (=Tomtebissen diplomatarisk version sidan 1) osv. Bildstorlek och filstorlek redovisas i Bilaga 1 Bildtabeller. 4.1.2.1 Diplomatariska problem och lösningar: Till en början blev filerna väldigt stora. Likaså ville jag behålla bildstorlekarna i förhållande till varandra. Valet blev att ändra till 72 dpi, vilket fungerade bra och storleksförhållandet bibehölls. För webben var målet att bilderna inte skulle vara så tunga. Valet blev att spara för webben i.png för att ha stöd för transparens (eftersom jag ville att bilden skulle placeras på en bakgrund lik boksidan). I lågupplöst png8-format, 256 färger, blev det vita prickar i bildens kant när den lades på en färgad bakgrund. Lösningen blev att behålla png8-formatet, men att välja inställningen matte och välja eyedropper med färginställningen på samma som bokbakgrunden. Därmed blev inte prickigheten lika tydlig. Försättssidan bestod av både bild och text. I en för låg upplösning 10
blev textdelen i mycket dålig kvalitet och valet blev att spara i bättre färgupplösning (png 24). Efter varje bildhantering lades bilden in på en testwebbsida för att se hur utresultatet blev. Tack vare det kunde nya strategier göras vartefter för att åtgärda eventuella problem. För att lägga bilderna på en bakgrund lik bokoriginalets papper gjordes en bakgrundsbild. Följande strategi användes: Utgångspunkt från försättsbilden (.tiff). Bilden duplicerades. Justeringslager med levels. Bildstorleken ändrades till upplösning 300px Ett område om 49x49px valdes mitt på textsidan. (utan skador och teckning). Området kopierades och öppnades i nytt dokument. Bakgrundsbilden sparades som.jpg. Denna användes sedan som bakgrund till diplomatarisk version (Bakgrund.jpg) samt användes som bakgrund i vissa delar av andra XSL-mallar också. 4.1.3 Normaliserad bild Ansvarig: Rikard För bildredigering av normaliserad version användes Adobe Photoshop 7.0. Målet var att få lite skarpare färger och vitare bakgrund än originalet för att på så sätt göra bilderna lite mer moderna. En kopia togs av bilden. Sedan sparades den som psd. Roterar bilden (ifall det behövs) Beskär bilden så nära in på det färglagda som jag kan. Jag gör en ram med marquee tool. Väljer Crop. Levels på denna bild = 46 för den vänstra och 214 på höger sida, vilket är en bit in. Sätter en vitpunkt och avslutar med en liten levels justering igen. Sedan tar jag bort lite småskavanker i bilden där det behövs. Slutligen sparar jag bilderna i jpeg där jag drar ner storleken och väljer resolution 72. Filbenämningar har gjorts enlig principen: tbnormfor (=Tomtebissen normaliserad version försättsblad), tbnorm1 (=Tomtebissen normaliserad version sidan 1) osv. Bildstorlek och filstorlek redovisas i Bilaga 1 Bildtabeller. 4.1.3.1 Normaliserade problem och lösningar: På en bild var vänstermarginalen lite skadad vid skanningen och svår att reparera. Ett försök gjordes att istället använda den fotograferade bilden, men det blev inte ett helt lyckat resultat. Den inskannade bilden reparerades till sist i Photoshop 7.0. 4.2 Erfarenheter Tidigt uppstod frågor rörande färger och kalibrering av utrustning. Eftersom detta projekt har begränsat med resurser (både tid och pengar) hade vi inga större möjligheter att kunna färgkalibrera vår arbetsutrustning i någon större utsträckning. Jessica hade dock lyckats kalibrera sin skärm varav valet blev att hon fick ansvar för faksimilen. Likaså äger hon 11
digitaliseringsobjektet, vilket underlättar vid inställningar av färger vid skapandet av faksimilen. Huvudmålsättningen var att faksimilen ska vara originalet mest troget. Vår tanke var också att var och en skulle vara inblandade i alla versioner. Var och en skulle ta fram en bildstrategi och inställningsguide som vi skulle hålla oss till vid bildhantering. Ganska snart insåg vi att detta inte skulle vara praktiskt möjligt. Dels pga. att vi förmodligen hade olika grundinställningar på datorn samt olika versioner av programvaror. Vi valde således att var och en fick göra alla bilder för sitt ansvarsområde. Var och en skulle också ansvara för dokumentation av detsamma. De olika versionerna och utförande diskuterades vid ett flertal tillfällen. Jessica undersökte i det inledande stadiet KB:s exemplar vilket på de flesta punkter måste anses vara i ett sämre skick än den bok som har stått till godo för detta projekt. Vår bok visade sig vara aningen mer gulnad, vilket väckte funderingar kring bokens ursprungliga skick och hur nedbrytningen skulle kunna ha påverkat färgernas kvalitet. Färgerna bedömdes vara likvärdiga i de båda exemplaren varför frågan har fått stå obesvarad. Sett till färgernas skärpa och barnbokens förhållandevis fina skick får det antas att boken har varit relativt skonad från solljus vilket också ökar chanserna att det visuella intrycket ligger tillräckligt nära det ursprungliga. Kombinationen av osäkerhetsfaktorn kring bokens originalskick samt de problem som har uppstått vid bildfångsten gör att de olika versionerna kan anses vara godtyckliga. Det material som vi har valt att presentera har noga övervägts och diskuterats inom gruppen. 4.3 Tidsåtgång Testexemplar bild 3 3 tim 30 min Christina 2 tim Rikard 2 tim 30 min Jessica Faksimil 23 tim Jessica Diplomatarisk 25 tim Christina Normaliserad 16 tim Rikard 4.4 Teknisk utrustning Photoshop CS3 extended, English version. Adobe Photoshop 7.0 5 Digitalisering av text 5.1 Beskrivning och arbetsfördelning Huvudansvarig för textuppmärkningen är Jessica, men varje gruppmedlem har varit inblandad i textuppmärkningen. Vi har valt att inte behandla framsidan och baksidan i uppmärkningen, utan enbart försättsbladet samt sidor med bild och text. Försök gjordes att OCR-tolka texten, men alltför många fel uppstod, så texten har transkriberats i Word manuellt. Var och en har märkt upp 1/3 av boken. Christina lämnade förslag på uppmärkningsschema varvid Jessica beslutade att 12
textuppmärkning skulle göras enligt den modellen. Jessica har ansvarat för arbetet med sammanslagningen och för teiheadern. Christina har tagit fram en lämplig DTD, kompletterat och korrigerat i XML-filen för textuppmärkningen, samt sammanställt dokumentationen. 5.1.1 DTD Ansvarig: Christina Sagan om Anna-lill och den trogne Tomtebissen är författad på rim, varvid TEI-lite inte skulle räcka till för att märka upp rimmen i texten. Med hjälp av TEI Pizza chef (http://www.teic.org/pizza.html) skapades en egen DTD för vårt behov. I basen (Steg 1) valdes en mixed base bestående av prosa och vers. I additional tagsets (steg 2) valdes inget annat än det som redan var förvalt ( linking, figures och analysis ). I valet av entitetsuppsättningar (Steg 3) valdes Unicode deklarationer för Västeuropeiska språk (ISOlat1). Med dessa inställningar åstadkoms en bra grund-dtd att utgå ifrån. Eftersom sagan innehåller ett antal specialtecken samt flera bilder kompletterades den skapade DTD n med dessa. Tilläggen lades sist i DTD n för att enkelt kunna hålla ordning på den ursprungliga DTD n och tilläggen. Specialtecknen avsåg entiteter för dubbla citattecknen («,») och ett långt tankestreck ( ). Filformaten för bilderna är jpeg och png varvid notationer skapades för dessa. För varje enskild bild skapades också entiteter i DTD n. Den slutgiltiga DTD filen finns på http://www.arkeologiservice.se/tomtebissen/tomtebissen.dtd. 5.1.1.1 Erfarenheter av DTD Det finns olika sätt att lösa tilläggen i DTD n. Ett sätt är att lägga egna tillägg utanför själva DTD n i prologen. Den andra lösningen är att baka in egna tillägg i DTD n, vilket jag gjorde. Fördelen är att om fler filer ska peka till samma DTD, behövs bara ändringar/tillägg göras i en fil. Med den första lösningen, så måste man ändra på flera ställen, vilket kan bli lite problematiskt. Den första metoden kan dock användas om man hänvisar till en DTD man inte själv har kontroll över. Den skapade DTD n tillsammans med aktuell XML-fil validerades med Brown s validator via Scholarly Technology Group (http://www.stg.brown.edu/service/xmlvalid). Ett antal försök fick göras då validatorn hade problem att hantera lokala filer. Därför valdes att lägga upp filerna på vår webbplats och göra valideringen länkad till en extern URL. Några errors och warnings uppstod, vilka åtgärdades. Bl.a. fanns problem med kommentarer som hade gjorts i DTD n. Problem uppstod med specialtecken såsom å, ä och ö i DTD n. Efter en del genomförda korrigeringar återstod slutligen endast ett par warnings (inga errors ). Varningarna berörde bildformaten jpeg och png samt teicorpus.2. Efter kontakt med Mikael Gunnarsson vid Borås Högskola för att höra hur vi skulle förhålla oss till varningarna, så kunde beslutet tas att varningen om teicorpus.2 kunde kommenteras bort i DTD n då den har att göra med om man har flera TEI.2-filer som kan bäddas samman, vilket inte är aktuellt för vårt projekt. Slutligen återstod endast två varningar rörande bildformaten: 13
Dessa bedömdes som OK för det fortsatta arbetet. Den slutgiltiga XML filen på hemsidan http://www.arkeologiservice.se/tomtebissen/tomtebissen.xml) tillsammans med aktuell DTD (http://www.arkeologiservice.se/tomtebissen/tomtebissen.dtd) har validerats med validatorn på W3 schools (http://www.w3schools.com/site/site_validate.asp). Brown s validator via Scholarly Technology Group slutade att fungera mot slutet av projektet. 5.1.2 Uppmärkning i TEI Utgångspunkten för uppmärkningen av själva sagan har varit att utgå från TEI lite, men eftersom sagan är författad på rim har vi utgått från Base Tag Set for Verse (se http://www.teic.org/release/doc/tei-p4-doc/html/ve.html). För detta ändamål skapades en egen DTD, vilket har beskrivits ovan. Sagan har inga faktiska sidnummer, men numrering har skett enligt principen att sidan 1 är första sidan där sagan börjar. Därefter har sidor med bild och text numrerats i uppmärkningen. Försättsbladet har fått sidnummer front. TeiHeadern Ansvarig: Jessica Förutom det obligatoriska elementet filedesc har teiheadern kompletterats med elementen encodingdesc samt revisiondesc. Under filedesc återfinns uppgifter om bokens titel, författare och utgivningsår samt publikationsuppgifter för den elektroniska utgåvan. EncodingDesc innehåller upplysningar kring den digitala utgåvan och dess förhållande till originalet. I innehållet återfinns projektdesc med en kort beskrivning av den digitala versionens syfte, editorialdecl där principer för uppmärkningen samt avvikelser från originalet tas upp samt tagsdecl där de olika elementens förekomst i uppmärkningen listas upp. Slutligen infogades elementet revisiondesc där förändringar i TEI-filen förs in. 14
Texten Uppmärkningsmall, korrektur och dokumentation är genomförd av Christina. Jessica har slagit ihop allas uppmärkta delar. Försättsbladet är behandlat som en bild och inlagt i fronten i xml-filen. Försättsbladet är omgiven av <div> med attributet frontpage. I <body> är sagans texter och bilder presenterade. Sidorna har försetts med en <div> -tagg med sidnummer för varje sida. Varje sida började också med <pb> med attributet n med värdet för sidnumret. Varje stycke märktes med <lg> med attributet rhyme. Alla stycken har försetts med ett unikt id enligt modellen LG101 där 1= sidan 1 och 01 = stycke 1 på sidan. På en del sidor har styckena delats. För att hantera detta har varje del av det delade stycket behandlats som ett eget stycke, men länkats ihop med attributet next respektive prev. Varje delstycke har försetts med ett unikt id med tillägget a respektive b där a är första delen av stycket och b är andra delen. Nedan visas exempel på uppmärkningen av sidan 9: <lg rhyme="aba" id="lg902a" next="lg902b"> <linkgrp type="rhyme"> <link targets="sid9a3 Sid9A4"/> <link targets="sid9b3 Sid9B4"/> <link targets="sid9c3 Sid9C4"/> </linkgrp> <l>men kungen, som där skulle <seg id="sid9a3" type="a">styra</seg>,</l> <l>han dött då han ej visste <seg id="sid9b3" type="b">rätt</seg></l> <l>hur många gånger två blir <seg id="sid9a4" type="a">fyra</seg> </l> </lg> <lg rhyme="bcc" id="lg902b" prev="lg902a"> <l>och ingen <orig reg="levde" resp="rikard Schaffer">lefde</orig> <orig reg="av" resp="rikard Schaffer">af</orig> hans <seg id="sid9b4" type="b">ätt</seg>!</l> <l>men nu så skulle enligt <seg id="sid9c3" type="c">lagen</seg></l> <l><q who="lagen" id="q9022">«den visaste«</q> till kung bli <seg id="sid9c4" type="c">tagen</seg>.</l> </lg> Rimmet (<rhyme>) anger vilken typ av rim det är och hur rimmande rader hänger ihop. Alla stycken i boken (förutom de två sista sidorna) har rimtypen ababcc, vilket innebär att rad 1 och 3 rimmar med varandra (a, a), rad 2 och 4 rimmar (b, b) och rad 5 och 6 rimmar (c, c). Varje ord som rimmar är uppmärkt enligt modellen: seg och med type = A, B eller C. Varje segment/ord har ett eget unikt id enligt modellen: Sidnr X + rimtyp A, B eller C + 1, 2, 3 eller 4 beroende på var på sidan det är. I varje stycke har de ord som rimmar länkats ihop, där rimgrupp A hör ihop osv. Ovanliga tecken har också gjorts om, t.ex. å = å. Varje rad har märkts med <l>. 15
Exempel från sidan 1: <div type="book"> <div type="page" n="1"> <pb n="1"/> <lg rhyme="ababcc" rend="firstletterbig" 3 <linkgrp type="rhyme"> <link targets="sid1a1 Sid1A2"/> <link targets="sid1b1 Sid1B2"/> <link targets="sid1c1 Sid1C2"/> </linkgrp> id="lg101"> <l>det var en gång en liten <seg id="sid1a1" type="a">flicka</seg></l> <l>som var så innerligen <seg id="sid1b1" type="b">rar</seg> </l> <l>hon kunde stoppa, sy och <seg id="sid1a2" type="a">sticka</seg></l> <l>och hade alltid snälla <seg id="sid1b2" type="b">svar</seg> </l> <l>var vacker som en <seg id="sid1c1" type="c">rosenknopp</seg></l> <l>och god och det är bättre <seg id="sid1c2" type="c"> opp</seg>!</l> </lg>... </div> <!-- /page 1 -->... </div> <!-- /book --> Förklaring: A, B, C anger typen av rim som är i stycket. Ord kodade som A rimmar med varandra (= flicka rad 1, sticka, rad 3). Ord kodade som B rimmar med varandra (= rar rad 2, svar rad 4). Ord kodade som C rimmar med varandra (= rosenknopp rad 5, opp rad 6). Varje ord i slutet av varje rad är uppmärkt med <seg> </seg>. Varje segment har att attributet A, B eller C, beroende på vilken typ av rim det tillhör. I exemplet tillhör flicka och sticka typ A, rar och svar typ B samt rosenknopp och opp typ C. Därmed märks sista ordet på rad 1 och 3 med märkparet <seg> och typen A. Sista ordet på rad 2 och 4 får märkparet <seg> </seg> och typen B. Sista ordet på rad 5 och 6 får märkparet <seg> </seg> och typen C. Varje rimord och segment har fått ett unikt ID. Ett ID måste vara unikt. Detta är döpt enligt principen sidnummer + rimtyp + löpnummer för varje sida. I första stycket får alltså ordet flicka följande kodning: <seg id= Sid1A1 type A >flicka</seg> Ordet rar får följande kodning: <seg id= Sid1B1 type B >rar</seg> Osv 3 Endast första raden i sagan har försetts med rendattributet FirstLetterBig, för att påvisa att texten börjar med en stor bokstav. 16
Dessa ord har sedan länkats ihop med märkparet linkgrp och linktargets. Detta är inlagt i början av varje stycke för att visa vilka ord som hör ihop inom stycket. I detta fall ser första styckets linkgrp ut som följer: <lg rhyme="ababcc"> <linkgrp type="rhyme"> <link targets="sid1a1 Sid1A2"/> <link targets="sid1b1 Sid1B2"/> <link targets="sid1c1 Sid1C2"/> </linkgrp> Detta innebär att orden på rad 1 och 3 (rimgrupp A) på sidan 1 hör ihop. Orden på rad 2 och 4 (rimgrupp B) hör ihop. Orden på rad 5 och 6 (rimgrupp C) hör ihop. Därutöver har ålderdomliga ord märkts med <orig> och attributet reg med modernare ord och här har angetts vem som är ansvarig för ändringen (<resp>). Bilderna för varje version (diplomatarisk och normaliserad) har lagts i anslutning till var i texten de hör på varje sida. Först ligger länken för diplomatarisk version med rubrik (head) samt bildbeskrivning (figdesc). Sedan ligger länken för normaliserad version med samma bildbeskrivning som den diplomatariska versionen. Bilderna har fått attributet rend med värdet dip respektive norm för att åtskilja de olika versionerna av bilderna. Exempel: <figure entity="tbdip3" rend="dip"> <head>anna-lill och guldvagnen</head> <figdesc>tomtebissen sitter bredvid kusken och övervakar Annalills färd på stranden i guldvagnen dragen av fyra hästar. </figdesc> </figure> <figure entity="tbnorm3" rend="norm"> <head>anna-lill och guldvagnen</head> <figdesc>tomtebissen sitter bredvid kusken och övervakar Annalills färd på stranden i guldvagnen dragen av fyra hästar. </figdesc> </figure> Några citat (direkta) finns i sagan. Eftersom problem uppstår när citat går över flera rader och varje rad är uppmärkt med l (det blir bruten hierarki i uppmärkningen) har följande strategi för uppmärkningen tagits fram: Varje citat på varje rad har märkts upp med <q> och försetts med ett unikt id enligt modellen q801a1, q=citat, 8=sidan 8, 01=stycke 1, a=första delen av ett stycke (om det är delat), 1 = första citatet på sidan. Om citatet fortsätter på nästa rad har citaten länkats ihop med attributet next respektive prev (enligt rekommendationer i TeiLite: Burnard, Sperberg McQueen 2002:20 avsnitt 8.3 Linking attributes). 17
Exempel från sidan 8 (med delat stycke): <lg>... <l>då sade gossen glad: <q who="gossen" id="q801a1" next="q801a2">«jo! <seg id="sid8a1" type="a">fyra</seg>!</q></l> <l><q who="gossen" id="q801a2" prev="q801a1">två gånger två är fyra <seg id="sid8b1" type="b">jämt</seg>!«</q></l> <l> De vise <orig reg="blev" resp="rikard Schaffer">blefvo</orig> först smått <seg id="sid8a2" type="a">yra</seg></l> </lg> <lg rhyme="bcc" id="lg801b" prev="lg801a"> <l>och fruktade att det var <seg id="sid8b2" type="b">skämt</seg> </l> <l>men småningom de mindes <seg id="sid8c1" type="c">dock</seg></l> <l>att förr de hört detsamma <seg id="sid8c2" type="c"> ock</seg>!</l> </lg> 5.2 Erfarenheter En stor nackdel har varit att vi alla tre har varit inblandade i uppmärkningen av sagan. Fördelen är dock att i utbildningssyfte har vi alla fått en viss insikt i uppmärkningsproblematik. Uppdelningen medförde mycket extraarbete vid sammanläggningen, för att kontrollera att allt var konsekvent uppmärkt. Likaså uppstod problem då en av deltagarnas xml-fil öppnades upp i Internet Explorer varvid en del extra-taggar lades till (som läggs till by default av IE). Filen kopierades sedan (olyckligtvis) så som den presenterades i IE och användes för hopslagning. Detta skapade en stökig XML fil, vilket medförde en tids arbete att redigera. 5.3 Tidsåtgång Textuppmärkning, och DTD 28 tim 30 min Christina Textuppmärkning 6 tim Rikard Textuppmärkning 9 tim 30 min Jessica TeiHeader 5 tim 30 min Jessica 5.4 Teknisk utrustning JEdit 4.3 pre 1 2 using Java 1.6.0_05 Oxygen 9.2 Brown s validator http://www.stg.brown.edu/service/xmlvalid W3 Schools validator http://www.w3schools.com/site/site_validate.asp 18
6 XSLT 6.1 Beskrivning och arbetsfördelning Ansvarig: Christina Arbetet med XSLT har haft flera målsättningar. Först har målet varit att skapa en grundmall för XSL som ger en xhtml-fil (innehållande de grundläggande taggarna) som kan valideras till ett godkänt resultat i någon av validatorerna. Sedan har målet varit att vidareutveckla grundmallen till mer specifika XSL-filer, applicerbara på XML-filen för projektet Tomtebissen, för att presentera valt innehåll ur XML-filen på webben med en xhtml-fil. XHTML-filerna har sedan kompletterats med CSS-filer för layout. 6.1.1 Målsättning med XSL som grundmall En XSL-grundmall som genererar en xhtml-fil som kan valideras till ett godkänt resultat i någon av validatorerna enligt strict model. 6.1.1.1 Problem och lösningar med grundmallen Programmet Oxygen 9.2 har använts för transformeringen. Målet har varit att skapa XHTMLfiler, men viss problematik finns då XSLT 1.0 (xsl:stylesheet 1.0) inte har stöd för output method XHTML utan genererar html. XSLT 2.0 har stöd för output method xhtml, men valet har varit att följa kursens mallar med version 1.0. Genom att använda grundmallen presenterad via Högskolan i Borås (se Mikael Gunnarsson http://www.adm.hb.se/~mad/digarv08/manual070301.pdf s. 61) så genereras en html-fil där sluttaggarna inte är fullständiga. Detta är i linje med de rekommendationer som t.ex. ges via W3.org (http://www.w3.org/tr/xslt#section-html-output- Method). Problemet är dock att html-filen som skapas inte får ett OK resultat då den ska valideras (t.ex. via http://www.w3schools.com) som en XHTML-fil eftersom sluttaggarna saknas på tomma element (t.ex. <br/>). Den genererade html-filen behövde även en doctype hänvisning för XHTML i XSL-mallen. För detta lades den som ett attribut i elementet xsl:output (se referens http://www.xml.com/pub/a/2002/09/04/xslt.html?page=2). Vid transformeringen i Oxygen testades olika transformeringsverktyg varav Xalan gav en tydlig och läsbar formatering till skillnad mot Saxon som inte gav en lika välformaterad fil. Lösningen blev följande grundmall med förklaringar/länkar hänvisade till siffror i fotnot: <?xml version="1.0" encoding="utf-8" 4?> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/xsl/transform"xmlns="http://www.w3.org/1999/ xhtml"> 5 4 http://www.w3schools.com/xml/xml_encoding.asp 5 http://www.w3.org/tr/xslt#section-html-output-method. Löste problemet med att output blev html i stället för xhtml (xml). Taggar av typen <xsl: > pekar mot attributet xmlns:xsl="http://www.w3.org/1999/xsl/transform i xsl:stylesheet, medan taggar utan prefixet <xsl:...> pekar mot xmlns="http://www.w3.org/1999/xhtml"> och tillhör XHTML. 19
<xsl:output method="html" doctypesystem="http://www.w3.org/tr/xhtml1/dtd/xhtml1-strict.dtd" doctype-public="- //W3C//DTD XHTML 1.0 Strict//EN"/> 6 <xsl:template match="/"> <html xmlns="http://www.w3.org/1999/xhtml" 7 > 8 <head> <title><xsl:value-of select="tei.2/teiheader/filedesc/titlestmt/title"/></title> <meta http-equiv="content-type" content="text/html; charset=utf-8" /> 9 </head> <body> <div> <br/></div> </body> </html> </xsl:template> </xsl:stylesheet> 6.1.2 Målsättning med XSL i projektet Tomtebissen En fil som är originalet troget (layout, färger, typsnitt, bilder, språk) = diplomatarisk version. En fil som är normaliserad (eventuellt friare layout, färger, modernare språk). En fil som highlightar rimmen. En version (utan bilder). Rimtyp A = blå, rimtyp B = röd, Rimtyp C = grön. Exempel (s. 3) En gång bjöds Anna ut att fara på stranden utaf lifvets älf och vagnen sken af guldet klara som en liten pärla sken hon själf; hos kusken tomtebissen satt att söka hindra varje spratt. En version som behandlar bilderna. Bara bilderna och bildrubrikerna plockas ut. Det ska mynna ut i ett index (klickbart). När man klickar på rubrik i index ska man komma till aktuell bild längre ner på sidan. Under varje bild ska fig.desc visas. Bildrubrikerna ska visas ovanför respektive bild. En fil som listar alla gamla ord till moderna ord (ordlista) i bokstavsordning med hänvisning till sida i boken och klickbar länk till rätt sida. Exempel: gammalt ord nytt ord sida utaf av 3, 5, 5, 10 6 Skapar en <!DOCTYPE> tagg i output filen vilket krävs för att kunna validera outputfilen mot en dtd i detta fall som strict xhtml. http://www.xml.com/pub/a/2002/09/04/xslt.html?page=2 7 Attributet krävs för XHTML-dokument. http://www.w3schools.com/tags/tag_html.asp 8 http://www.w3schools.com/xhtml/xhtml_syntax.asp (se Mandatory XHTML Elements). 9 http://www.w3.org/international/o-charset (se Att deklarera kodningar). 20
6.1.3 Problem och lösningar med bildhantering i xsl-mallarna Projektet tomtebissen innefattar bilder. I TEI hänvisar man till bilder med elementet <figure> 10 som i sin tur hänvisar till en entity i DTD n. Bilderna har vi därmed deklarerat i DTD n. Entityn har ett specifikt namn och en sökväg till bilden t.ex: <!ENTITY TBdip1 SYSTEM "TBdip1.png" NDATA png> För att få in sökvägen i <img>-taggen i XHTML-dokumentet används funktionen unparsedentity-uri() i XSLT-mallen. Eftersom vi har två olika versioner av bilder i projektet har vi i XML-filen märkt bilderna med attributet rend med värdet dip för den diplomatariska versionen respektive norm för den normaliserade. Följande xsl-template har använts: <xsl:template match="figure[@rend='dip']"> <xsl:variable name="img" select="unparsed-entity-uri(@entity)" /> <img src="{$img}" alt="{./figdesc}" style="float : top" /> </xsl:template> Ovanstående template med funktionen unparsed-entity-uri() genererar en absolut sökväg 11 till bildfilerna, vilket kan ge vissa problem t.ex. att sökvägen kan vara styrd mot lokala filer på egna PC n. Likaså kan problem uppstå om man har absoluta sökvägar till bildfilerna på webbplatsen och behöver flytta hela webbplatsen till en annan adress. Då måste även alla sökvägar skapas om till den nya adressen. Nedan visas exempel på vilket (oönskat) resultat man fick med ovanstående template: <img style="float : top" alt="anna-lill sitter på en pall och stickar." src="file:/c:/documents%20and%20settings/stina/mina%20dokument/digit ALISERING%20KULTURARV/Projekt/Text/Tomtebissen%20uppmarkning/TBdip1.png" /> Målsättningen var istället att få ett uttryck för en relativ sökväg då man slipper dessa problem. Efter en del efterforskningar på internet hittades en lösning som plockar ut filnamnet och filändelsen (dvs. skalar bort den inledande sökvägen) 12. Lösningen finns i filen xmldepend.xsl 13 i template path-basename. Detta visas i nedanstående template: <xsl:template name="path-basename"> <xsl:param name="path"/> <xsl:choose> <xsl:when test="not(contains($path,'/'))"> 10 http://www.tei-c.org/release/doc/tei-p4-doc/html/ref-figure.html 11 http://www.w3.org/tr/xslt#unparsed-entities. Se avsnitt 3.3 Unparsed Entities. 12 http://www.sagehill.net/docbookxsl/graphicslocations.html 13 http://docbook.svn.sourceforge.net/viewvc/*checkout*/docbook/trunk/contrib/xsl/xmldepend/xmldepend.xsl 21
<xsl:value-of select="$path"/> </xsl:when> <xsl:otherwise> <xsl:call-template name="path-basename"> <xsl:with-param name="path" select="substringafter($path,'/')"/> </xsl:call-template> </xsl:otherwise> </xsl:choose> </xsl:template> För att få den önskade sökvägen i <img>-taggen ändrades templaten för figure till nedanstående: <xsl:template match="figure[@rend='dip']"> <xsl:variable name="imgpath"> <xsl:call-template name="path-basename"> <xsl:with-param name="path" select="unparsed-entityuri(@entity)" /> </xsl:call-template> </xsl:variable> <img src="{$imgpath}" alt="{./figdesc}" /> </xsl:template> Ovanstående template anropar templaten path-basename med <xsl:call-template>-taggen, vilken i sin tur returnerar filens namn och filändelse. Nedan visas exempel på (det önskvärda) resultatet man fick med ovanstående template: <img alt="anna-lill sitter på en pall och stickar." src="tbdip1.png" /> Risken med denna lösning är att om man har filerna i en underkatalog och således har underkatalogen med i sökvägen i entityn t.ex. <!ENTITY TBdip1 SYSTEM "/bilder/tbdip1.png" NDATA png> så kommer sökvägen till bilden bara att bli TBdip1.png. Katalogen bilder kommer att skalas bort. En jämförelse har gjorts med ett tidigare projekt vid denna utbildning ( Kattresan http://karlsson.ownit.nu/kattresan) där de valde en annan lösning med sökvägen till bilderna. De hämtade Entityns namn istället för Entityns värde och i XSLen har de gjort ett tillägg för filändelsen (.gif): <xsl:template match="figure"> <p class="bild"> <img src="../illustrationer/{@entity}.gif" alt="{head}" /> </p> </xsl:template>. Denna lösning låser bildens namn och bildens filformat. Tomtebissens lösning utnyttjar istället Entityns värde utan att behöva göra något tillägg för filändelsen. 22
6.1.4 Avvägningar i olika versioner 6.1.4.1 Avvägning diplomatarisk version Bilder och text ligger på olika ställen i digitaliseringsobjektet och följer inget enhetligt mönster, vilket gav en hel del huvudbry. Målet var att få en version som var så lik originalet som möjligt. Hur skulle man kunna återskapa det med XSL och CSS utan att stöka till i XML-filen? De flesta sidorna har bild överst med 1 2 stycken med text under. En del sidor har text inbakat i bilden. För att kunna styra var text och bild hamnar i förhållande till varandra och var på sidan, kunde uppmärkningen i XML-filen utnyttjas där bl.a. varje sida har försetts med <div> taggar. Till XSL-filen gjordes en CSS-fil med specifika regler för layouten. Nackdelen med detta är att i detta fall, så är både XSL-filen och tillhörande CSS mycket anpassad till detta projekts digitaliseringsobjekt (Sagan om Anna-lill). Detta begränsar möjligheten att kunna använda den framtagna XSL-filen och CSS-filen till andra digitaliseringsobjekt. Fördelen är att kunna visa att man faktiskt utifrån en XML-fil kan skapa en digital utgåva som i stort sett är originalet troget både vad gäller text och layout. 6.1.4.2 Avvägning normaliserad version Eftersom sagan är på rim, medförde det en viss begränsning vid uppmärkningen i TEI, då en del ålderdomliga ord på rim inte kunde ersättas med modernare ord utan att frångå rimmen. Där så har varit fallet har vi valt att behålla det gamla ordet. I den normaliserade versionen har normbilderna valts, där bl.a. en friare tolkning av färger har gjorts. Även citat har försetts med stilen italic. Annars är den normaliserade versionen lik den diplomatariska vad gäller layout förutom att avståndet mellan bokstäverna inte har angetts. 6.1.4.3 Avvägning rimversion För att lyfta fram sagans rim har varje ord som rimmar märkts upp i TEI där varje grupp av ord har fått en färg. Tack vare XSL-mallen och transformeringen kunde en del småfel upptäckas, då en del rim-ord hade relaterats till fel grupp. Detta är också en av styrkorna med att utnyttja uppmärkningen i TEI och sätta en layout på taggarna med hjälp av XSL-mallar. Det blir som en extra kontroll för uppmärkningen i XML-filen. 6.1.4.4 Avvägning version bildindex Indexet är till för att utnyttja bilderna och informationen om dessa. Bara bilderna samt tillhörande text plockades ut i XSL-filen. Bildrubrikerna användes till indexet och sidnummer hämtades från uppmärkningen av varje sida. För att skapa indexet gjordes en tabell. Till varje bild sattes en rubrik (bildrubriken) samt en beskrivande text under varje bild (fig.desc). Även här kunde småfel i uppmärkningen och val av bildtexter noteras och snabbt korrigeras. Bl.a. fanns samma bildtext som alternativ text på två bilder. Ännu ett sätt att få en kontroll över att uppmärkningen blivit korrekt. 6.1.4.5 Avvägning version ordlista En av de stora utmaningarna har varit att utifrån XML-filen kunna skapa en ordlista med ord i diplomatarisk version översatta till ord i normaliserad version. Liksom i bildindex skapades en tabell där värdena hämtades i <orig>-elementet respektive värdet av attributet reg. För att även få fram på vilken sida respektive ord finns, så hämtades även värdet för sidnumret i <div>- 23