Aktivitetsrapport från Aktivitet 3 Digitala Leveranser 2005 2005-12-04 Arkivering, Långtidslagring I dokumentet Aktivitetsplan för Projekt Digitala Leveranser, daterat 2005-09-14, framgår det att aktivitetens uppdrag är att belysa ett par frågor inom området arkivering och långtidslagring av digitalt material. Arbetsuppgifterna består i två uppdrag och det första är enligt följande: Ett XML-schema för tekniska metadata nödvändiga för långtidsarkivering bör fastställas. Respektive XML-scheman för olika nivåer skall kunna användas som krav/rekommendationer för e-leveranser. Deluppgift två består i följande: Ett formatregister bör skapas. En prototyp till ett formatregister har arbetats fram inom SVEP-projektet och kan börja testas. Aktivitetsgrupp Den grupp som formerats för aktiviteten består av Eva Meszaros, Allan Arvidsson och Bengt Neiss. Alla arbetar på DoIT. Tolkning av uppdragen Gruppen har tolkat uppdragen enligt följande: 1. Ett XML-schema för teknisk metadata ska arbetas fram. XML-schemat ska användas för teknisk metadata som ska följa e-leveranser av material till Kungliga biblioteket (KB) och ska vara anpassat för denna verksamhet. 2. Ett formatregister bör skapas. Gruppen har gjort bedömningen att målsättningen är följande: Enkel kravspecifikation för formatregistrets användning, bedömning av de externa formatregister som finns, samt framtagning av vilka element som bör ingå i ett formatregister. Arbetetsgång Arbetet med dessa frågor har lagts upp enligt modellen arbetsmöten hemarbete, dvs utredande arbete mellan avstämningsmöten. Gruppen har hitintills haft fyra stycken arbetsmöten. Arbetsgång och Resultat Arbetet med XML-schemat har kommit en bit på vägen mot ett slutgiltigt förslag. Arbetet har delats upp i ett antal olika etapper enligt följande modell: - Undersöka lämpliga standarder - Schema för ett specifikt filformat - Generalisering av schema Gruppen har tittat på METS, EAD, PREMIS, samt ett antal dokument som är framtagna av The Research Libraries Group (RLG). Gruppens bedömning är att PREMIS är den standard som bäst lämpad för våra ändamål. Efter denna utvärdering har arbetet gått in i en fas där gruppen tittar på ett enskilt format PDF och ser vilka metadata som är önskvärda att registrera för detta format och vilka metadata som är möjliga att extrahera mha programvara 1(13)
direkt ur PDF-filen. Gruppens arbete befinner sig i dagsläget i denna fas, samt att uppbyggnaden av XML-schemat har påbörjats. Termer och begrepp I rapporten används några olika termer och begrepp som bör definieras. Med Digitalt objekt avses varje enskild fil som lagras i ett digitalt arkiv. Varje digitalt objekt får också teknisk metadata kopplad till sig. Termen Publikation används för att beteckna ett helt dokument, t.ex. en e-bok i sin helhet. Detta dokument kan bestå av enskilda filer t.ex. pdf, eller vara sammansatta av flera filer t.ex. html-baserade dokument. Till varje publikation kopplas beskrivande metadata. Termen Paket används för att beskriva det material som levereras till arkivet. Materialet består oftast av en packad fil bestående av en publikation tillsammans med beskrivande metadata. Bevarandemetadata i ett digitalt arkiv Med bevarandemetadata avses här de metadata som behövs för att följa ett dokuments eventuella förändringar in i framtiden. Det förutsetts att ett dokument är en enskild datafil eller en samling av datafiler. Vad som kan behövas för eventuella programvaror behandlas ej. Termen bevarandemetadata omfattar tekniska, administrativa och strukturella metadata. Tekniska metadata Tekniska metadata bör delas upp i en generell del och en formatspecifik del. Det finns tekniska metadata som är gemensamma för alla format men det kommer också att finnas skillnader mellan olika format, där det är önskvärt att spara metadata som är specifika för respektive format. De generella metadata som arbetsgruppen anser bör genereras och lagras för inkommet material är följande: Storlek Det digitala objektets storlek i bytes. Format Typ av filformat Version Den version som filformatet följer. Kontrollsumma Värdet av kontrollsummeberäkning av det digitala objektet Algoritm för kontrollsumma Vilken typ av checksumma som har beräknats Filnamn Filens originalnamn (vid eventuellt byte av filnamn i digitalt arkiv) ArkivID Det digitala objektets unika identitet i arkivet Detta är de grundläggande tekniska metadata som bör genereras för varje enskilt digitalt objekt. Utöver dessa finns ett antal andra typer av teknisk metadata som bör sparas i ett digitalt arkiv, men som inte är direkt relaterade till de enskilda digitala objekten. Bland dessa kan nämnas metadata om den tekniska miljö som krävs för att visa en given fils innehåll. Formatspecifika tekniska metadata bör upprättas efterhand som olika format blir aktuella. Arbetgruppen kommer att titta på vilka formatspecifika metadata som är aktuella för pdf- 2(13)
formatet. För att illustrera skillnaden mellan olika format kan man ta exemplet talböcker. Om det skulle bli aktuellt att talböcker levereras till KB, i t.ex. mp3-format, kommer det att vara intressant att generera teknisk metadata med uppgifter om bitrate, tiden på ljudklippet etc. Administrativa metadata Med administrativa metadata avses de metadata som innehåller historik, säkerhetsuppgifter, etc. Den typ av metadata som behövs i ett digitalt arkiv berör i huvudsak uppgifter för om migrering av data, samt uppgifter om när de digitala objekten ska bli tillgängliga och för vem. I ett digitalt arkiv kommer migrering av data att förekomma. Det förutsetts ske på ett sådant sätt så att de originalfiler som finns alltid kommer att finnas kvar och att olika migreringar kan ske från originalfilen. De administrativa metadata som arbetsgruppen anser bör lagras för inkommet och konverterat material är följande: Migreringsblock Ett metadatablock som innehåller uppgifter om genomförd migrering av data. Migreringsblocket ska innehålla information om Referens till originalfil, datum då migrering genomfördes, vilken programvara som använts och vem som varit ansvarig för migreringen. Accessdatum Datum då ett digitalt objekt är fritt att visa. Detta förutsätter att leverantör bifogar denna information vid leverans, alternativt att krav ställs vid digitalisering. Intellectual Property Rights Ett block med metadata som innehåller information om copyright o.d. Rättigheter till metadata och digitala objekt Ett block innehållande rättigheter för tillgång till digitala objekt, samt rättigheter att ändra metadata Anmärkningsfält Ett anmärkningsfält för övrig information som kan vara av intresse Strukturella metadata Strukturella metadata är viktiga då en publikation består av flera digitala objekt. Strukturella metadata beskriver olika digitala objekts inbördes relation. De strukturella metadata som arbetsgruppen anser bör lagras för inkommet och konverterat material är följande: Relation Ett block av metadata som beskriver olika digitala objekts inbördes relation till varandra. 3(13)
Formatregister Ett format register har flera olika möjliga användningsområden. Här nedan följer några olika exempel på användningsområden: - Identifiera det digitala objektets format - Validera om ett digitalt objekt är det format det utger sig för att vara - Stöd vid konvertering mellan olika filformat - Sök viktiga egenskaper för specifika filformat - Riskhantering är formatet på väg att försvinna - Information om hur olika format ska renderas Arbetsgruppen ser ett formatregister som en stödfunktion för det digitala arkivet. Ett formatregister för KB bör innehålla följande: - allmän information om specifika filformat - teknisk information om hur ett filformat är uppbyggt så att man i framtiden kan tillgängliggöra innehållet i de enskilda filformaten - information om vilka programvaror som kan användas för att se en enskild fils innehåll - information om i vilken miljö de olika programvarorna ska köras i och vilka tekniska krav de ställer - Larmfunktion för kontroll av olika filformats status över tid - Rekommendationer för och beskrivningar av lämpliga verktyg för migrering av olika filformat Vid införandet av ett formatregister är det viktigt att den designas på ett sådant sätt att den kan stödja de automatiska processer som finns i ett digitalt arkiv. Informationen om format behövs bara i registret. Däremot behövs information om vilket format en fil har för varje digitalt objekt. 4(13)
Exempel Exempel 1 - PDF-format <?xml version="1.0" encoding="utf-8"?> <object> <linkingintellectualentityidentifier> <linkingintellectualentityidentifiertype>url</linkingintellectualentityidentifiertype> <linkingintellectualentityidentifiervalue>websok.libris.kb.se/websearch/showrecord?searchid=4670 [URL of the MARC record describing the document]</linkingintellectualentityidentifiervalue> </linkingintellectualentityidentifier> <linkingpermissionstatementidentifier> <linkingpermissionsatementidentifiertype/> <linkingpermissionsatementidentifier/> </linkingpermissionstatementidentifier> <objectidentifier> <objectidentifiertype>isbn</objectidentifiertype> <objectidentifiervalue>isbn9197557412</objectidentifiervalue> </objectidentifier> <preservationlevel>0</preservationlevel> <objectcategory>fil</objectcategory> <objectcharacteristics> <compositionlevel>0</compositionlevel> <size>5677</size> <fixity> <messagedigestalgoritm>md5</messagedigestalgoritm> <messagedigest>357857489hfgsdhfhfgdfddfs834958943jjjhg97gn</messagedigest> <messagedigestoriginator>elib</messagedigestoriginator> </fixity> <format> <formatdesignation> <formatname>pdf</formatname> <formatversion>1.4</formatversion> <formatregistry> <formatregistryname/> <formatregistrykey/> <formatregistryvalue/> </formatregistry> </formatdesignation> </format> <signifikantproperties/> <inhibitors> <inhibitorstype/> <inhibitortarget/> <inhibitorkey/> </inhibitors> </objectcharacteristics> <creatingapplication> <creatingapplicationname>adobe Acrobat</creatingApplicationName> <creatingapplicationversion>5.0</creatingapplicationversion> <datecreatedbyapplication>2005-11</datecreatedbyapplication> </creatingapplication> <originalname/> <storage> <contentlocation> <contenlocationtype>kb</contenlocationtype> <contenlocationvalue>kb/arkiv/kb-2005-112233</contenlocationvalue> <storagemedium>dlt cartridge IV</storageMedium> </contentlocation> </storage> 5(13)
<enviroment> <enviromentcharacteristic>kännt att fungerar</enviromentcharacteristic> <enviromentpurpose></enviromentpurpose> <enviromentnote/> <dependency> <dependencyname/> <dependencyidentifier> <dependencyidentifiertype/> <dependencyidentifiervalue/> </dependencyidentifier> </dependency> <software> <swname>adobe Acrobat Reader</swName> <swversion>6.1</swversion> <swtype>renderer</swtype> <swotherinformation/> <swdependency>windows NT</swDependency> <swdependency>mozilla Firefox 1.0</swDependency> </software> <hardware> <hwname>intel Pentium II</hwName> <hwtype>processor</hwtype> <hwotherinformation/> </hardware> </enviroment> <signatureinformation> <signatureinformationencoding/> <signer/> <signaturemethod/> <signaturevalue/> <signaturevaiditaionsrules/> <signatireproperties/> <keyinformation> <keytype/> <keyvalue/> <keyverificationinformation/> </keyinformation> </signatureinformation> <relationship> <relationshiptype>l</relationshiptype> <relationshipsubtype/> <relatedobjectidentification> <relatedobjectidentifiertype/> <relatedobjectidentifiervalue/> <relatedobjectsequence/> <relatedevenidentifiertype/> <relatedeventidentifiervalue/> <relatedeventsequence/> </relatedobjectidentification> </relationship> <permissionstatement> <permissionstatementidentifier> <permissionstaementidentifiertype/> <permissionstatementidentifiervalue/> </permissionstatementidentifier> <linkingobject/> <grantingagrrement> <grantingagreementidentification/> <grantingagreementinformation/> <act/> 6(13)
<restriction>tillgängligt lokalt på KB</restriction> <termofgrantstartdatde>2005-11-01</termofgrantstartdatde> <termofgrantenddate>9999</termofgrantenddate> <permissionnote/> </grantingagrrement> </permissionstatement> </object> 7(13)
Exempel 2 - TIFF-format <?xml version="1.0" encoding="utf-8"?> <object> <linkingintellectualentityidentifier> <linkingintellectualentityidentifiertype>url</linkingintellectualentityidentifiertype> <linkingintellectualentityidentifiervalue>websok.libris.kb.se/websearch/showrecord?searchid=4670 [URL of the MARC record describing the document]</linkingintellectualentityidentifiervalue> </linkingintellectualentityidentifier> <linkingpermissionstatementidentifier> <linkingpermissionsatementidentifiertype/> <linkingpermissionsatementidentifier/> </linkingpermissionstatementidentifier> <objectidentifier> <objectidentifiertype>urn</objectidentifiertype> <objectidentifiervalue>urn:nbn:se:kb:bilder-8392464</objectidentifiervalue> </objectidentifier> <preservationlevel></preservationlevel> <objectcategory>fil</objectcategory> <objectcharacteristics> <compositionlevel>0</compositionlevel> <size>48667865</size> <fixity> <messagedigestalgoritm>md5</messagedigestalgoritm> <messagedigest>7678ggvvfdfd8754465635423</messagedigest> <messagedigestoriginator>refo</messagedigestoriginator> </fixity> <format> <formatdesignation> <formatname>tif</formatname> <formatversion>6.0</formatversion> <formatregistry> <formatregistryname/> <formatregistrykey/> <formatregistryvalue/> </formatregistry> </formatdesignation> </format> <signifikantproperties>color Accuracy (Adobe RGB 1998)</signifikantProperties> <inhibitors> <inhibitorstype/> <inhibitortarget/> <inhibitorkey/> </inhibitors> </objectcharacteristics> <creatingapplication> <creatingapplicationname>scanxact</creatingapplicationname> <creatingapplicationversion>ii</creatingapplicationversion> <datecreatedbyapplication>2004-11-22</datecreatedbyapplication> <creatingapplicationname>adobe Photoshop</creatingApplicationName> <creatingapplicationversion>6.0</creatingapplicationversion> <datecreatedbyapplication>2004-11-29</datecreatedbyapplication> </creatingapplication> <originalname>2001pr3_10</originalname> <storage> <contentlocation> <contenlocationtype>filnamn</contenlocationtype> <contenlocationvalue>affischbild.tif</contenlocationvalue> <storagemedium>dlt cartridge IV</storageMedium> </contentlocation> 8(13)
</storage> <enviroment> <enviromentcharacteristic>känt att fungerar</enviromentcharacteristic> <enviromentpurpose>sökning, rendering, lägga till metadata</enviromentpurpose> <enviromentnote/> <dependency> <dependencyname/> <dependencyidentifier> <dependencyidentifiertype/> <dependencyidentifiervalue/> </dependencyidentifier> </dependency> <software> <swname>artesia TEAMS</swName> <swversion>5.1</swversion> <swtype>digital Asset Management</swType> <swotherinformation/> <swdependency>imagealchemy</swdependency> <swdependency>oracle 9i</swDependency> <swname>sun Solaris</swName> <swversion>9</swversion> <swtype>operating System</swType> <swotherinformation/> </software> <hardware> <hwname>sunfire</hwname> <hwtype>cpu</hwtype> <hwotherinformation>v series</hwotherinformation> </hardware> </enviroment> <signatureinformation> <signatureinformationencoding/> <signer/> <signaturemethod/> <signaturevalue/> <signaturevaiditaionsrules/> <signatireproperties/> <keyinformation> <keytype/> <keyvalue/> <keyverificationinformation/> </keyinformation> </signatureinformation> <relationship> <relationshiptype>local</relationshiptype> <relationshipsubtype>har metadata</relationshipsubtype> <relatedobjectidentification> <relatedobjectidentifiertype/> <relatedobjectidentifiervalue/> <relatedobjectsequence/> <relatedevenidentifiertype/> <relatedeventidentifiervalue/> <relatedeventsequence/> </relatedobjectidentification> </relationship> <permissionstatement> <permissionstatementidentifier> <permissionstaementidentifiertype/> <permissionstatementidentifiervalue/> </permissionstatementidentifier> 9(13)
<linkingobject/> <grantingagrrement> <grantingagreementidentification/> <grantingagreementinformation/> <act>replikera, migrera, använda, presentara</act>/> <restriction>ingen</restriction> <termofgrantstartdatde>0000</termofgrantstartdatde> <termofgrantenddate>9999</termofgrantenddate> <permissionnote/> </grantingagrrement> </permissionstatement> </object> 10(13)
Exempel 3 - TAR-format <?xml version="1.0" encoding="utf-8"?> <object> <objectidentifier> <objectidentifiertype>urn</objectidentifiertype> <objectidentifiervalue>urn:nbn:se:kb:arkiv:tidning-234324</objectidentifiervalue> </objectidentifier> <preservationlevel>full</preservationlevel> <objectcategory>fil</objectcategory> <objectcharacteristics> <compositionlevel>0</compositionlevel> <size>567897</size> <fixity> <messagedigestalgoritm>md5</messagedigestalgoritm> <messagedigest>35785748jh78bafhfgdfddfs834958943jjjhg97gn</messagedigest> <messagedigestoriginator>tidning</messagedigestoriginator> </fixity> <format> <formatdesignation> <formatname>.tar</formatname> <formatversion>1.0</formatversion> <formatregistry> <formatregistryname>format Register</formatRegistryName> <formatregistrykey>tar</formatregistrykey> <formatregistryvalue>basic</formatregistryvalue> </formatregistry> </formatdesignation> </format> <signifikantproperties/> <inhibitors> <inhibitorstype/> <inhibitortarget/> <inhibitorkey/> </inhibitors> </objectcharacteristics> <creatingapplication> <creatingapplicationname>adobe Acrobat</creatingApplicationName> <creatingapplicationversion>5.0</creatingapplicationversion> <datecreatedbyapplication>2005-11</datecreatedbyapplication> </creatingapplication> <originalname/> <storage> <contentlocation> <contenlocationtype>sökväg</contenlocationtype> <contenlocationvalue>http://arkiv.kb.se/tidning/kb-2005-112233</contenlocationvalue> <storagemedium>server</storagemedium> </contentlocation> </storage> <enviroment> <enviromentcharacteristic>kännt att fungerar</enviromentcharacteristic> <enviromentpurpose></enviromentpurpose> <enviromentnote/> <dependency> <dependencyname>do metafil</dependencyname> <dependencyidentifier> <dependencyidentifiertype>cat/tidning/kb-2005-112233.rec</dependencyidentifiertype> 11(13)
<dependencyidentifiervalue/> </dependencyidentifier> </dependency> <software> <swname>mediasphere</swname> <swversion>1.4b9</swversion> <swtype>renderer</swtype> <swotherinformation/> <swname>unix</swname> <swversion></swversion> <swtype>operating system</swtype> <swotherinformation/> </software> <hardware> <hwname></hwname> <hwtype></hwtype> <hwotherinformation/> </hardware> </enviroment> <signatureinformation> <signatureinformationencoding>ingen</signatureinformationencoding> <signaturemethod/> <signaturevalue/> <signaturevaiditaionsrules/> <signatireproperties/> <keyinformation> <keytype/> <keyvalue/> <keyverificationinformation/> </keyinformation> </signatureinformation> <relationship> <relationshiptype>struktural</relationshiptype> <relationshipsubtype>har del</relationshipsubtype> <relatedobjectidentification> <relatedobjectidentifiertype>urn:nbn:se:kb:arkiv:tidning- 234355</relatedObjectIdentifierType>/> <relatedobjectidentifiervalue>/arkiv/tidning/urn:nbn:se:kb:arkiv:tidning- 234355</relatedObjectIdentifierValue>/> <relatedobjectsequence>2</relatedobjectsequence> <relatedevenidentifiertype/> <relatedeventidentifiervalue/> <relatedeventsequence/> </relatedobjectidentification> </relationship> <permissionstatement> <permissionstatementidentifier> <permissionstaementidentifiertype/> <permissionstatementidentifiervalue/> </permissionstatementidentifier> <linkingobject/> <linkingeventidentifier> <linkingeventidentifiertype>urn:nbn</linkingeventidentifiertype> <linkingeventidentifiervalue>54780</linkingeventidentifiervalue> </linkingeventidentifier> <linkingintellectualentityidentifier> <linkingintellectualentityidentifiertype>tidning Online</linkingIntellectualEntityIdentifierType> <linkingintellectualentityidentifiervalue>tidning99/000052377</linkingintellectualentityidentifiervalue> 12(13)
</linkingintellectualentityidentifier> <linkingpermissionstatementidentifier> <linkingpermissionstatementidentifiertype></linkingpermissionstatementidentifiertype> <linkingpermissionstatementidentifiervalue></linkingpermissionstatementidentifiervalue> </linkingpermissionstatementidentifier> <grantingagrrement> <grantingagreementidentification/> <grantingagreementinformation/> <act/> <restriction>tillgängligt lokalt på KB</restriction> <termofgrantstartdatde>2003-11-01</termofgrantstartdatde> <termofgrantenddate>9999</termofgrantenddate> <permissionnote/> </grantingagrrement> </permissionstatement> </object> 13(13)