Testplattformen (Webbarkivering)

Relevanta dokument
LDB-Centrum. Centrum för Långsiktigt Digitalt Bevarande. Östen Jonsson. Liten insats stor nytta

METADATASTANDARDER EN ORIENTERING

Projekt E-ARK stöd vid digital arkivering. Björn ES Solutions

Begrepp för elektroniska arkiv och digitalt bevarande. Översättning av OAIS & Begrepp för arkivenheter i olika standarder

ADDML vid Riksarkivet i Sverige

Paketstruktur. Karin Bredenberg /


RADAR. Mats Berggren /

Nordisk El-Arkivseminar Island maj Svensk SIP och AIP Mats Berggren, Riksarkivet

Digital arkivering. Börje Justrell/

Standarder vid digitalt bevarande. Karin Bredenberg /

ESSArch vid Riksarkivet i Sverige

Test av programvara Författare Avd Telefon Datum Version Sid Göran Lindqvist (14) LDB-centrum. Test av programvara

Nordisk Arkivakademi Boden november 2009

INTERNATIONELL UTBLICK HUR MÄRKER VI AV ARBETET MED STANDARDER?

Kulturarw 3 SVENSKA WEBBEN BEVARANDE & TILLGÄNGLIGGÖRANDE #FAI2016

världsvida väven

Förvaltning av FGS:er

archive En produkt från Ida Infront - a part of Addnode Group

archive En produkt från ida infront - a part of Addnode

Tidformat Tid anges enligt formatet yyyy-mm-ddthh:mm:ss Där plustiden är tidstillägg i förhållande till UTC 2.

Elektroniskt bevarande. Caspar Gielissen Eskilstuna kommun, Stadsarkivet

Digital arkivering och historiklagring Anastasia Pettersson och Anders Kölevik

Rosetta. Ido Peled. A Digital Preservation System. December Rosetta Product Manager

E-arkiv på SLL landstingsarkivet

Introduktion till Entity Framework och LINQ. Källa och läs mer

Delrapport DP3. FGS för paketstruktur för e-arkiv Bilaga 2 PREMIS

IT-avdelningen. Författare Funktion Telefon Datum Version Sid Karin Bredenberg SoU (10)

Karin Bredenberg Specifikation av olika leveranstyper/aflevereringstyper och leveransprocessen. Karin Bredenberg,

ISO Designing and Implementing a Records System (DIRKS/DIRS), Göran Samuelsson

Hur tänker KB ta hand om högskolornas e-publikationer?

Bevarande av webbsidor

Internationella kopplingar Karin Bredenberg,

Swedish National Data Service

E-arkiv, eardoch Pre-pre-ingest

E-plikten. Expertgruppen för metadata 20 maj

Vad är MoReq1? Falk Sundsvall 2006

Förvaltningsgemensamma specifikationer (FGS) Jan Aspenfjäll & Tomas Wallin

Elektroniskt bevarande Säkra för framtiden. Caspar Gielissen Föreningen Sambruk

Förvaltningsgemensamma specifikationer

Installation och konfiguration av klientprogramvara 2c8 Modeling Tool

Från dokumenthanteringssystem till e-arkiv Anastasia Pettersson Per Carlsson

Nytt e-arkivbyggnadsblock - så fungerar det. Karin Bredenberg, senior teknisk rådgivare, metadata

KONSULTPROFIL Rodrigo

En introduktion till långtidsbevarande av digital information

PRAKTIKFALL: Vinnaren av ediamond Award 2014! Data kan flyttas utan att information går förlorad

DP7 Kompletterande information

Creo Customization. Lars Björs

En kort introduktion till EAD. av Magnus Wåhlberg vid RFV/avd. för verksamhetsstöd/dokumentenheten

GIS i molnet. GISS After Work, 13 oktober 2011 Roger Hamrén Cartesia GIS AB. -En del av AddNode

Riksarkivets IT-verksamhet. En integrerad del av vårt dagliga arbete och långsiktiga verksamhetsutveckling. Rolf Källman

Kulturarvet. tillgängligt använt återanvänt. Marie Andersson

Swedbank Mobile Loadtesting. LoadRunner Mobile App protocol

Råd för hantering av elektroniska handlingar vid Lunds universitet. Datum Författare Version Anne Lamér 1.0

Hur integrera Active Directory och DNS? Rolf Åberg, Simplex System

EDLocal EDLocal tillgängliggör digitalt kulturarvsmaterial från lokala och regionala aktörer genom European Digital Library (EDL)

Introduktion till. (FGS) FGS Personal. Vägledning och förklaring till de förvaltningsgemensamma specifikationerna. Introduktion FGS Personal

Introduktion till. (FGS) FGS Paketstruktur. Vägledning och förklaring till de förvaltningsgemensamma specifikationerna. Introduktion FGS Paketstruktur

Filformat och långtidslagring Magnus Wåhlberg Filformat och Långtidslagring

Bevarande av webbplatser En kartläggning bland statliga myndigheter i Sverige

E-plikt. Kungliga biblioteket, Stockholm. Foto: Jens Östman #FAI2016

Implementationsstrategier för PLCS

Aktivitetsrapport från Aktivitet 3 Digitala Leveranser

Dokumenttyp Ordlista Projekt Elektroniskt bevarande, Etapp 2

Testramverk och Model based testing med java i praktiken

Modern webbutveckling. av Robert Welin-Berger

PROTAGE-projektet AAS-konferens 21 oktober 2010

Bibliografisk kontroll. som samarbete och superhjältekraft

Elisabet Stöök Konsult SAS Institute AB Copyright 2003, SAS Institute Inc. All rights reserved.

Hantera informationspaket i system för bevarande

Dokumentation för VLDIT AB. Online classroom

Vägen till e-arkivet. NUAK 19 september Margareta Ödmark Avdelningen för arkiv och registratur

Val av format för elektroniska handlingar - ArkivE. Nora Liljeholm / Riksarkivet /

Federerad Roll Administration ÄR GROUPER EN MEDSPELARE? OVE OLANDER MITTUNIVERSITETET

Workshopmallar The e C ap a it i al a l o f S c S a c n a din i av a ia

Designdokument för eard SIP-Generator

Teoretiska överväganden kring långsiktig lagring av elektronisk information

DP7 FORMELL KONTROLL

CM FORUM. Introduktion till. Configuration Management (CM) / Konfigurationsledning. Tobias Ljungkvist

Arkivering av sociala medier. från aktivism till allmänna handlingar tankar om varför och exempel på hur

BESKRIVNING AV REGISTRERINGSDATA. Nordiska arkivdagar Kenneth Ahlfors

Current selection does not contain a unique column. Grid edit, checkbox, Edit, Copy and Delete features are not available.

SND-forum 14 nov Transfers of research data to National Archives and use of our data for research. Magnus Geber

Ett e-arkiv värt att lita på UTKAST för synpunkter

Checklista: Beständiga identifierare

Konverteringsprojekt P47

Delrapport DP3. FGS för paketstruktur för e-arkiv Bilaga 1 METS

Landstingsarkivet (Stockholms län) genom tre e-arkivgenerationer

FGS:erna i dag och hur får vi dem att bli fler (FGS = Förvaltningsgemensamma specifikationer)

Användarhandbok. Trio Visit Web. Trio Enterprise 4.1

Det här med levels.?

Fackföreningsrörelsens digitala omvandling. Att bevara organisationsmaterial i den digitala tidsåldern

Digisams frågeschema för arbetet med myndighets/ institutionsvisa planer

Delrapport DP3. Metadata och e-tjänster för e-arkiv Förvaltningsgemensamma Specifikationer (eard FGS) FGS för paketstruktur för e-arkiv

PrintObs.NET dokumentation

ASP.NET Thomas Mejtoft

ORCID medlemskap och implementering vid Chalmers

Nya möjligheter med M3 Technology. Björn Svensson, Björn Torold

4/2013. PDF/A - det rekommenderade formatet för att information skall kunna läsas och återskapas i en framtid.

Transkript:

Testplattformen (Webbarkivering) 16 september 2009 KB Hamid Rofoogaran LDB-centrum

Testplattformen Koncept och projekt Koncept - LDB-centrum avser att bygga en testplattform för digital arkivering (bevarande & tillgängliggörande). - Pågående process - Från ord till handling - Från teori till praktik

Testplattformen koncept

Testplattformen Koncept och projekt Projekt - Treårigt projekt - Finansierad med hjälp av Tillväxtverket (Nutek) - Projekttid: 1:a januari 2008 31 december 2010 - Fokus på webbarkivering

Arbetssätt, strategi Inte uppfinna hjulet igen Mappa behov mot lösning Bottom-up Integrera

Vad är webbarkivering?

Projektplan ID Aktivitet Beskrivning Kommentarer Förstudie webbarkivering Se rapporterna LTU-webb och LDB- Webb Lena tillsammans med Ltu Iterativ kravspecifikation Växer fram under projektets gång Slutversion när projektet är klart Verktyg för insamling av webben Crawling verktyget Heritrix Installation, konfiguration, testkörningar Verktyg för indexering Nutch Wax Installation, konfiguration, testkörningar

Projektplan Verktyg för indexering Verktyg för visning WARC-Format WARC-tools Nutch Wax Way Back Machine Utvärdering, analys av WARC med avseende på långtidsbevarande Inlärning, utvärdering och vidareutveckling av befintlig C-bibliotek för läsning/skrivning av WARC container. Installation, konfiguration, testkörningar Installation, konfiguration, testkörningar Droid Verktyg för filidentifiering Användargränssnitt Webbgränssnitt för plattformen. Användning av repository (Fedora?) Egenutvecklade program INGEST Migrering Baseras på senare beslut För att binda ihop verktygen till en sammanhängande process Skapa arkivpaket Hantering av arkivpaketet i repository Konvertering av WARC Tillgängliggörande Presentation av migrerat WARC

Tidplan 1:a januari 2008 Mars Juni April 2008 Augusti December 2008 Projektet startar Förstudie Rekrytering Webbarkivering Verktyg Installation, insamling av LTU s och RA,s gamla webb.webb siter Januari 2009- Juni 2009 Utveckling av programvara för WARC Utveckla webbservices Bygga användargränssnitt Integrera Crawlingsverktyg + program för hantering av WARC + användargränssnitt till en enhet. Testa och färdigställa fas 1, Augusti 2009 december 2009 Förarbete & analys : Hur bygger man ett AIP av WARC? Är RA:S paketstruktur applicerbart för WARC? Har KB / IIPC utgivna riktlinjer i denna fråga? Januari 2009 April 2010 Maj 2010 - oktober 2010 November 2010 December 2010 Bygga AIP för WARC Migrera WARC Tillgängliggörande av migrerad WARC-fil Integrera, Testa, Färdigställa plattformen

Arkitektur & Implementation Göran Lindqvist

Arkitektur

e6e72634-7160-4274-a754-e9af0fc59d73 43694f98-4c1a-4601-9648-e561c0d85945 WARC WARC 43694f98-4c1a-4601-9648-e561c0d85946 fb0430ec-4d5e-4ef0-ad62-99a31ece886a fb0430ec-4d5e-4ef0-ad62-99a31ece886b fb0430ec-4d5e-4ef0-ad62-99a31ece886c fb0430ec-4d5e-4ef0-ad62-99a31ece886d fb0430ec-4d5e-4ef0-ad62-99a31ece886f

e6e72634-7160-4274-a754-e9af0fc59d73 43694f98-4c1a-4601-9648-e561c0d85945 43694f98-4c1a-4601-9648-e561c0d85946 WARC WARC fb0430ec-4d5e-4ef0-ad62-99a31ece886a fb0430ec-4d5e-4ef0-ad62-99a31ece886b fb0430ec-4d5e-4ef0-ad62-99a31ece886c fb0430ec-4d5e-4ef0-ad62-99a31ece886d fb0430ec-4d5e-4ef0-ad62-99a31ece886f <filename>ldb-20081203141713-00000-server2.warc</filename> <identifier>43694f98-4c1a-4601-9648-e561c0d85946</identifier> <date>2008-12-03t14:17:13z</date> <relation>e6e72634-7160-4274-a754-e9af0fc59d73</relation> <rights/> <migrated_records/> <FileCollection> <DROIDVersion>3.0</DROIDVersion <SignatureFileVersion>16</SignatureFileVersion> <DateCreated>2009-05-08T14:40:20</DateCreated> <IdentificationFile IdentQuality="Positive"> <FilePath>/home/goran/warctools_temp/dump/fb0430ec-4d5e-4ef0-ad62-99a31ece886c</FilePath> <FileFormatHit> <Status>Positive (Specific Format)</Status> <Name>Hypertext Markup Language</Name> <Version>4.01</Version> <PUID>fmt/100</PUID> <MimeType>text/html</MimeType> <IdentificationWarning>Possible file extension mismatch</identificationwarning> </FileFormatHit> </IdentificationFile>

Teknisk miljö GUI / insamling och tillgängliggörande Heritrix 2.02, wayback machine 1.4.2, mysql, Aphache 2, Tomcat 5.5 format (omslutande) WARC Skrivet GUI i PHP samt Java och JSP (java server pages) Körs på Linux (ubuntu 9.0.4) Extrahering och identifiering Droid 3, modifierat Warc extract, DC-light xmlstruktur Skrivet (obj) C, samt java (10 klasser) Körs på Linux (ubuntu 9.0.4) Analys SQL server 2008 (stored procedures), Java applikation server (glassfish 2) Skrivet GUI Java och JSP (java server pages) Körs på MS server 2003

Frågor?

Kommande aktiviteter Möjliga samarbetsområden (resurssamordning) 1. Skapa arkivpaket AIP (RA s paketstruktur) Trusted Digital Repository 2. Migrering av innehåll i WARC (KB, RA) Ny WARC eller förändring i den gamla Har IIPC hanterat/funderat över detta? Lagliga / juridiska aspekter 3. Tillgängliggörande av migrerat WARC (KB, RA) Har Wayback stöd för migrerat WARC? Har IIPC hanterat/funderat över detta? 4. Hanteringen av WARC i Fedoras repository (KB) Hör hemma i konceptet inte (absolut) nödvändigt för projektet

Vad är AIP I webbarkiveringssammanhang? SIP(AIP) METS Package level Technical metadata PREMIS Authority records EAC Archival description EAD Archival structure level ERMS MoReq2 Economical systems SIE-XML Data bases ADDML Other systems To be defined System structure level Context metadata Manual Digital data object TIFF Digital data object XML Digital object PDF/A Object level

Vad är AIP I webbarkiveringssammanhang? SIP(AIP) METS Package level Technical metadata PREMIS Authority records EAC Archival description EAD Archival structure level ERMS MoReq2 Economical systems SIE-XML Data bases ADDML WARC? System structure level Context metadata Manual Digital data object TIFF Digital data object XML Digital object PDF/A Digital object HTML Object level

Trusted Digital Repository De verktyg som vi skapar i Testplattformen ska upplevas som så trovärdiga som möjligt TRAC ( hjälpmedel för självutvärdering av organisationer som håller digitala arkiv.) TRAC definierar tre olika områden A.Organisationens infrastruktur B. Hantering av digitala objekt C.Teknologier, teknisk infrastruktur och säkerhet Några punkter där vi redan arbetar enligt TRAC eller där vi inom kort kommer att göra det :

B1.4 Repository s ingest process verifies each submitted object (i.e., SIP) for completeness and correctness as specified in B1.2. B1.8 Repository has contemporaneous records of actions and administration processes that are relevant to preservation (Ingest: content acquisition). B2.1 Repository has an identifiable, written definition for each AIP or class of information preserved by the repository. B2.5 Repository has and uses a naming convention that generates visible, persistent, unique identifiers for all archived objects (i.e., AIPs).

B2.7 Repository demonstrates that it has access to necessary tools and resources to establish authorative semantic or technical context of the digital objects it contains. B2.9 Repository acquires preservation metadata (i.e., PDI) for its associated Content Information. B2.11 Repository verifies each AIP for completeness and correctness at the point it is generated. B4.4 Repository actively monitors integrity of archival objects.

Tack för uppmärksamheten! Besök oss på: www.ldb-centrum.se hamid.rofoogaran@ldb-centrum.se