Filformat och Långtidslagring 2005
Filformat och långtidslagring Termer runt L-lagring Trestegsraketen Orientering runt L-strategier Migreringshuset Teckentabeller Filformat Exempel
Allmänt om långtidslagring
Termer Bevarande Att göra en viss informationsmängd (handlingar) tillgänglig för all framtid. Långtidslagring Att göra digitalt lagrad information tillgänglig för framtida generationer. Arkivteori kontra Praktik (IT-term)
Termer forts. Konvertering Omvandling från ett filformat till ett annat, eller från en mediatyp till en annan, eller omvandling från en teckentabell till en annan. Migrering En serie av konverteringar som görs över tiden efter eller utan en migreringsplan. Transformering Att omvandla från en informationsstruktur till en annan. Ex. från en XML-struktur till en annan XML-struktur.
Trestegsraketen Medvetenhet hos ledning. Resurser tilldelas. Kunskap finns. Alternativ: Skriv ut på COM/papper och göm problemet i en källare. S.k. Print and forget.
Olika Långtidslagringsstrategier Utskrift till relativt stabila media Mikrofilm, papper, sten, metallskivor, lertavlor Totalbevarande/ Tekniskt museum Hårdvara och mjukvara Emulering (Mjukvara och datafiler i originalformat) Virtuell maskin (Emulering av ursprunglig hård- och mjukvara) Elektroniska paket (Teoretisk lösning) Metadatainkapsling med ryska dockor (Teoretisk lösning) Migrering (Löpande konvertering) Konvertering till aktuella och stabila format
Varför migreringsstrategin? Kräver löpande förvaltning, dock mindre än Tekniskt museum Viss löpande utveckling behövs, dock mindre än vid emulering Bevarar information med låga eller inga informationsförluster jämfört med utskrift Bättre för återsökning och återanvändning jämfört med utskrift
En typisk livscykel för filer/handlingar/dokument Långtidslagring av slutversion Skapandefas Arbetsmaterialfas (flera versioner) Gallring/rensning
Migreringshuset Metadata för styrning och beskrivning Struktur mellan filer Filformat (inkl. inre struktur) Teckentabell XML TIFF Verksamhetsprocess Organisation Medium Hårdvara (exkl. medium)
Teckentabeller och Filformat
Teckentabeller Använd någon av följande teckentabeller: 1. ISO 8859-1 (Western Latin I). 2. UTF-8 eller UTF-16 utifrån ISO 10646-1:2000. (Unicode 3.0 eller senare är helt kompatibelt med andra utgåvan av ISO 10646-1:2000, Universal Character Set.) I andra hand kan man använda Windows ANSI. Undvik IBM EBCDIC, PC-DOS och MacRoman.
Stabila kontra instabila format Stabila format (100-5000 år) Ex. Lertavlor, stentavlor, metallskivor, papper, COM Inga digitala filformat är stabila! Semistabila format (10-50 år) Ex. Ren text ( ASCII ), statisk XHTML, JPEG, TIFF, PDF/A Instabila format (1-10 år) Ex. MS Office, HTML, PDF
Eftersom det inte finns några stabila digitala filformat bör man ha en migreringsplan. måste man löpande kvalitetsgranska, övervaka och konvertera digitalt lagrad information. Med andra ord krävs det en aktiv förvaltning som löpande hanterar långtidslagringen av organisationens information.
Vanliga rekommendationer Under arbetsmaterialfasen kan instabila format användas. Ex. i MS Word. När en handling fastställts/låst/ blivit allmän handling så konverteras den till ett semistabilt format. Ex. till PDF/A. Ev. Görs dubbellagring i ett semistabilt och ett instabilt leverantörsformat. Ex. i CGM och AutoCAD DWG.
Livscykeln igen Långtidslagring Semistabilt format Initiering Instabila format Handläggning Instabila format Gallring/rensning
Kontorsdokument Semistabila ISO 19005-1:2005 PDF/A, Ren text/ascii, XHTML. Instabila MS Office-formaten (inkl. MS Office-XML), WordPerfect, HTML Bubblare SXW/SXC/SXD (OpenOffice.org zippade XML-filer),
Scanning (300 dpi) och rastrerad grafik Semistabila TIFF* 6.0 CCITT T.6/ grupp 4 för s/v. TIFF* 6.0 LZW (Lempel-Ziv-Welch) för färg/grå lossless. Ev. TIFF* 6.0 Uncompressed Bitmap för färg/grå. Ev. PDF/A. Ev. JFIF (JPEG File Interchange Format) med ISO 10918 JPEG. JPEG är egentligen endast en komprimeringsalgoritm. Filändelser:.jfif,.jpg,.jpeg Lossy och lossless Instabila Leverantörsformat såsom PDF, GIF 89a, FDF (Adobe Form Data Format), IBM AFP Bubblare ISO 15444-1:2004 JPEG 2000 (filändelse:.jp2,.jpf,.jpm, j2c ), W3C SVG, ISO 15948:2004 PNG *Se även ISO-standarder som ISO 12369:2004 Graphic Technology -- Prepress digital data exchange -- Tag image file format for image technology (TIFF/IT).
CAD och GIS (vektoriserade format) Semistabila GML (Geography Markup Language) för 2D och 3D. CGM (Computer Graphics Metafile ISO/IEC 8632) för 2D. (I vissa fall kan även TIFF 6.0 användas för 2D.) Instabila Leverantörsformat såsom AutoCAD DWG(Standard)/ DWF(Drawing Web Format), DXF (Drawing exchange Format) Bubblare WebCGM för 2D SVG (Scalable Vector Graphics) för 2D PDF/E för 2D/3D X3D från Web3D Consortium för 3D
Video, ljud, virtuella format Semistabila ISO 11172:1993 MPEG-1 MP3 = MPEG-1 layer 3 13818:1995 MPEG-2 Mellan instabila och semistabila ISO 14772-1:1997 VRML AU (NeXT/Sun sound file format) WAVE LPCM (MS Waveform Audio File Format with Linear PCM bitstream) Används av European Broadcast Union Instabila Quicktime, AVI (MS-Video), Macromedia, AIFF, Real-formaten, Macromedia Flash SWF... Bubblare X3D från Web3D Consortium, MPEG-4.
Affärsprocesser, finans Semistabila ebxml-ramverket, XBRL (extensible Business Reporting Language), FpML (Financial products Markup Language), OAGIS-ramverket (Open Applications Group). Instabila Leverantörsformat På väg bort? EDIFACT
Naturvetenskap Semistabila MathML (Mathematical Markup Language) Mellan Semistabila och instabila Extensible Data Format) CML (Chemical Markup Language) Instabila Leverantörsformat.
Systemutveckling och Teknik Semistabila ISO 19503 XMI (XML Metadata Interchange) DocBook STEP-ramverket SOAP Instabila I princip alla programspråk och alla leverantörsformat Bubblare W3C ECMAScript, STEPml, WfXML
Metadata och arkiv Semistabila EAD (Encoded Archival Description) ISO 15836:2003 DC (Dublin Core) med/utan W3C RDF e-government Metadata Standard inom UK egov/govtalk W3C RDF (Resource Description Framework) Instabila Leverantörsformat. Bubblare PRISM, NARA:s RFC:er för långtidslagring, EAC (Encoded Archival Context), MODS (Metadata Object Description Schema), METS (Metadata Encoding and Transportation Standard), VERS (Victorian Electronic Records Strategy), MOREQ, ISO 23081-1:2004 Records management processes - Metadata for records MARC-formaten (ex. NAD) på väg att ersätts med MARC XML eller EAD?
Allmänt Semistabila TEI (Text Encoding Initiative) IPTC NewsML XHTML Mellan semistabila och instabila HL7 (komplext), DICOM, HR-XML, CSS level 1, W3C XML Signature, OEBPS (Open ebook Forum Publication Structure), IPTC NITF (News Industry Text Format) Instabila Leverantörsformat.
PDF/A jämfört med PDF Audio och video tillåts inte. Inga script och ingen programkod är tillåten. Typsnitt ska vara inbäddade. Colourspaces i oberoende format. Ingen kryptering. Metadata.
Typiska konverteringspunkter OAIS Query Report/Result Set/Assistance Producer IP Consumer IP Order Informationspaket (DIP, SIP, AIP): IP Konverteringspunkt
Livscykeln da capo Långtidslagring Semistabilt format Initiering Instabila format Handläggning Instabila format Gallring/rensning
Exempel 1. Ordbehandling Skapa i leverantörsformat. (Ex. MS Word/WordML, Star/OpenOffice SXW ) Arbeta och spara arbetskopior i leverantörsformat. När handling fastställts konvertera/spara slutversion i PDF/A-format. (Jmf arkivläggning.) Långtidslagra PDF/A-versionen i filsystem eller i OAIS-system.
Exempel 2. CAD Skapa i PowerCAD, MicroStation, AutoCAD eller liknande. Arbeta i leverantörsformat. Ex. DWG. När ritning fastställts konvertera till CGM och spara en kopia i leverantörsformat om ritningen behöver ändras i framtiden. Långtidslagra ritning i CGM och leverantörsformat.
Exempel 3. Scanning Scanna i 300 dpi s/v och lagra i TIFF CCITT T.6. Lägg metadata i XML-fil. (Ex. PRISM, RDF/DC, OAGIS, edok eller liknande.) Arbeta med TIFF-fil i handläggningsprocess. Ändra metadata i XML-fil. Långtidslagra TIFF-fil och tillhörande metadata XML-fil i OAIS-system.
Sammanfattning Termer runt L-lagring Trestegsraketen Orientering runt L-strategier Migreringshuset Teckentabeller Filformat Exempel
Länkexempel http://www.digitalpreservation.gov/ http://www.digitalpreservation.gov/formats/ http://www.loc.gov/ http://www.govtalk.gov.uk/ http://www0.esd.org.uk/standards/egms/viewer/viewer.aspx
Frågor?