W9 verktyg och mjukvara för bevarande Benjamin Yousef 1 (22)
benjamin.yousefi@riksarkivet.se Jan 2013 Jurist Rättsfilosofi (Allmän rättslära, Juridisk metodlära, IT-rätt) 2 (22)
OFfentlig Informationshantering juridisk och teknisk rådgivare och utredare UTredning och Utveckling problematisera och systematisera överkomplicera påpeka det uppenbara ArkivE Elektroniska signaturer/underskrifter PDF/A PREFORMA 3 (22)
överensstämmelsekontroll 4 (22)
specifkation specification program n format instans x instance x referensimplementation reference implementation verifering (överensstämmelsekontrollering) verification (conformance checker) validering validation 5 (22)
identifiering gissningar (tror) identifiering kontra validering och verifiering utgår från metadata, exempelvis som anger att innehållet är LZW, utan att faktiskt verifiera. identifierare filändelser MIME (IANA) UTI (Uniform Type Identifier) PUID (PRONOM) FourCC (Four-Character Code) validering och verifiering kunskap (vet) verifierar att data faktiskt är vad som anges, exempelvis, att kodningen för data är LZW. inga tekniska fel Jfr jämförelse av hash (kondensat) Validitet men inte verifiering? 6 (22)
strategi Passiv Vänta tills vidare... Kan bli försent att göra något... någon annans problem :) Aktiv Utsätt för tester; validering dolda fel Tidigt identifiera fel, konsekvenser, orsaker, åtgärder. Underlag för att beräkna t.ex. kostnader. 7 (22)
format 8 (22)
PDF/A-1 PDF 1.5 ANSI X3.4, Information Systems Coded Character Sets 7-Bit American National Standard Code for Information Interchange (7-Bit ASCII) ECMA-6, 7-Bit coded Character Set. ISO 639-1, Codes for the representation of names of languages Part 1: Alpha-2 code ISO 2108, Information and documentation International standard book number (ISBN) ISO 3166-1, Codes for the representation of names of countries and their subdivisions Part 1: Country codes ISO/IEC 10646-1:2000/Amd 1:2002, Amendment 1: Mathematical symbols and other characters ISO/IEC 10646-2:2001, Information technology Universal Multiple-Octet Coded Character Set (UCS) Part 2: Supplementary Planes ISO/IEC 14492:2001, Information technology Lossy/lossless coding of bi-level images Equivalent to ITU-T Recommendation T.88, Information technology Coded representation of picture and audio information Lossy/lossless coding of bi-level images ISO 15489-1:2001, Information and documentation Records management Part 1: General ISO/TR 15801, Electronic imaging Information stored electronically Recommendations for trustworthiness and reliability ISO 15930-6, Graphic technology Prepress digital data exchange using PDF Part 6: Complete exchange of printing data suitable for colour-managed workflows using PDF 1.4 (PDF/X-3) ISO/TR 18492, Long-term preservation of electronic document-based information ISO 18509-1, Electronic archival storage Specifications relative to the design and operation of information processing systems in view of ensuring the storage and integrity on recordings stored in these systems Part 1: Long term access strategy ISO 18509-2, Electronic archival storage Specifications relative to the design and operation of information processing systems in view of ensuring the storage and integrity on recordings stored in these systems Part 2: Technical specifications ITU-T Recommendation T.4, Standardization of Group 3 facsimile terminals for document transmission ITU-T Recommendation T.563, Terminal characteristics for Group 4 facsimile apparatus Language Tags, IANA. Namespaces in XML 1.1, W3C Recommendation, February 4, 2004. PDF Reference: Adobe Portable Document Format, Version 1.5, Adobe Systems Incorporated 4th edition. RFC 1950, ZLIB Compressed Data Format Specification version 3.3, May 1996. RFC 1951, DEFLATE Compressed Data Format Specification version 1.3, May 1996. The Unicode Standard, Unicode Consortium. Unicode Standard Annex #15, Unicode Normalization Forms, Unicode Consortium, 17 April 2003. ISO 639-2, Codes for the representation of names of languages Part 2: Alpha-3 code PDF Reference 1.5 Technical Notes: 22st Litteratur: 13st Adobe Type 1 Font Format. OPI: Open Prepress Interface Specification 1.3. PDF Public-Key Digital Signature and Encryption Specification. PostScript Language Reference, Third Edition, Addison-Wesley, Reading, MA, 1999. XMP: Extensible Metadata Platform. Apple Computer, Inc., TrueType Reference Manual. ICC.1:1998-09, File Format for Color Profiles, and Document ICC.1A:1999-04, Addendum 2 to Specification ICC.1:1998-09 ICC Characterization Data Registry CIP4 JDF Specification, Version 1.0. International Electrotechnical Commission (IEC), IEC/3WD 61966-2.1, Colour Measurement and Management in Multimedia Systems and Equipment, Part 2.1: Default RGB Colour Space srgb. ISO 639, Codes for the Representation of Names of Languages ISO 3166, Codes for the Representation of Names of Countries and Their Sub-divisions ISO/IEC 8824-1, Abstract Syntax Notation One (ASN.1): Specification of Basic Notation ISO/IEC 10918-1, Digital Compression and Coding of Continuous-Tone Still Images (informally known as the JPEG standard, for the Joint Photographic Experts Group, the ISO group that developed the standard) International Telecommunication Union (ITU), Recommendations T.4 and T.6. RFC 1321, The MD5 Message-Digest Algorithm RFC 1738, Uniform Resource Locators RFC 1766, Tags for the Identification of Languages RFC 1808, Relative Uniform Resource Locators RFC 1866, Hypertext Markup Language 2.0 Proposed Standard RFC 2045, Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies RFC 2046, Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types RFC 2068, Hypertext Transfer Protocol HTTP/1.1 RFC 2083, PNG (Portable Network Graphics) Specification, Version 1.0 Microsoft Corporation, TrueType 1.0 Font Files Technical Specification. Netscape Communications Corporation, Client-Side JavaScript Reference. Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible Markup Language (XML) 1.0 Extensible Stylesheet Language (XSL) 1.0 Web Content Accessibility Guidelines 1.0 9 (22)
format definition avgränsat binärt mönster [kod] 10 (22)
bevarandeformat minimera informationsförändringar från framställning till återgivning maximera förutsebarhet säkerhet överföring rymd tid (långsiktighet) 11 (22)
ArkivE 2.0 modell information framställning formation format återgivning presentation information 1. Motsvarar den återgivna information den framställda informationen? 12 (22)
identifiera fel 13 (22)
översikt fel error konsekvens consequence orsak cause åtgärd remedy tekniskt technical praktiskt practical värdering value judgment 14 (22)
översikt 1. symptom på informationsförändring vid 1. fram ställ ning, 2. åter giv ning, 3. och kontroll, ett fel, 2. konsekvenser av symptomen varför ett fel, exempelvis att kon sek vens en av symtomen innebär att myndigheten in te fullgör sina skyl dig heter enligt gällande rätt, 1. or saker till symptomen, 2. åt gärder för att rätta till symtomen, förhindra orsak en, eller han tera konsekvensen. 15 (22)
symptom felet tekniskt observation artefakter, text saknar glyfer, kan inte behandla/kopiera text, oväntad beteende så som oväntat avslut av program, felmeddelande el ler fellogg; kontroll: analys av kod såsom validering, veri fie ring eller tester, exempelvis, PDF/A: teckensnittet inte är omslutet ToUnicode saknas praktiskt subjektiv varietet och varians program, in ställ ningar och användning informationen är tek nisk kor rekt, men får en begränsad praktisk an vändning, exem pelvis, texten är inte mänsklig eller maskinellt läsbart; be räkningar av formler är inte möjligt; skep nader, objekt eller motiv kan inte iden ti fier as i bild. värdering bedömning/åsikt om att informationen in te upp fyller krav. 16 (22)
konsekvens varför ett fel tekniskt informationen är förändrat eller återges inte förut sebart, exempelvis, texten kan inte behandlas maskinellt, såsom text en kan inte ko pi er as (PDF: ToUnicode saknas), data kan inte identifieras eller urskiljas, data har förlorats. praktiskt informationen är inte ändamålsenlig, det vill säga, förlorat funktionellt skick, exempelvis (från ge ne rellt till specifikt), visning, uppspelning, läsning; återsökning; vidareförädling, vidareutnyttjande; släktforskning. värdering Informationen är tekniskt korrekt, och formellt praktiskt kor rekt, men inte tillräcklig, exempelvis, fel enligt standarden tillgodoser inte arkivlagen, PuL, verksamhets po li cy, standard, offentlighetsprincipen, ej lämplig användning av bevarandeformat, ej önskvärd kvalitet, såsom färg, ljud, stil. 17 (22)
or sak tekniskt objektiv varietet och varians på grund av program och teknisk implement er ing, samt specifika tion er och teknisk implementering, exem pel vis, kodning (mjukvara/hårdvara): digitalisering, pro g ram, inställningar; avkodning (mjukvara/hårdvara): program, in ställ ning ar; komponent: fel version eller saknas; lagringsenhet: korruption; utenhet. praktiskt subjektiv varietet och varians (policy) såsom program och användning, exempelvis, vid en olämplig: representation av information, exempelvis, rörlig bild <> stillbild, 3D <> 2D, fotografi <> ikon <> illustration, interaktiv <> statisk; funktionalitet eller kodning för att åter ge informa ti on, exempelvis, raster/bitmapp <> vektor <> punktmoln, alfakanal <> PDF -lager, text-teckenkodning <> text-raster/bitmapp, struktur: relationsdatabas <> tabell / ta bu lär <> tagg ( osynligt ), kalkylblad eller databas BLOB för dokument, värdering regelverk, såsom gällande rätt, policy, standard er, eller kvalitetskrav, godtycklighet (faller ej bedömaren i smaken :) 18 (22)
åt gärd rätta till symtomen, förhindra orsak en, eller han tera konsekvensen tekniskt [om]kodning och avkodning: ändra inställningar eller använd ett annat program; reparera: reperationsprogram eller hex-redi ge ring. praktiskt tillämpa en annan lämplig representation av informationen; [teknisk] funktionalitet eller kodning för att åter ge informa ti on. textkodning och exempelvis http://asciimath.org/, används transparens i GIF/PNG, 3D-objekt till 2D-lager, värdering omvärdera: felet är acceptabelt, nytt funktionellt skick. ingen komprimering. 19 (22)
policy 20 (22)
Vad är en policy? bortom gränserna för specifikation och implementation subjektiva rätt/fel lag, verksamhet, domän, Ska inte ersätta standarden! Men... Det som inte kan bedömas tekniskt. Det som inte kan tillåtas tekniskt, eller måste tillåtas tekniskt. restriktiv tillämpning 21 (22)
exempel annotation innehåll, ändrad, synlig,... färgrymd familj dokumentsäkerhet tillåtet att göra utskrift, ändringar, kopiera,... bifogade filer filnamn, beskrivning, kontrollsumma,... grafiska egenskaper transparens,... teckensnitt typ, namn, familj,... formulär höjd, bredd ICC profil version, modell, tillverkare, bilder bits per komponent, bredd, höjd, filter,... informationsordbok titel, författare, ämne,... lågnivåinformation indirekta objekt, skapat ID, filter,... avsedd utdata förutsättning, registernamn, info,... sidor bredd, höjd, rotation, egenskapsordbok typ "shading" anti-aliasing digitala signaturer innehåll, signeringsdatum, kontaktinformation,... 22 (22)