Testplattformen (Webbarkivering) 16 september 2009 KB Hamid Rofoogaran LDB-centrum
Testplattformen Koncept och projekt Koncept - LDB-centrum avser att bygga en testplattform för digital arkivering (bevarande & tillgängliggörande). - Pågående process - Från ord till handling - Från teori till praktik
Testplattformen koncept
Testplattformen Koncept och projekt Projekt - Treårigt projekt - Finansierad med hjälp av Tillväxtverket (Nutek) - Projekttid: 1:a januari 2008 31 december 2010 - Fokus på webbarkivering
Arbetssätt, strategi Inte uppfinna hjulet igen Mappa behov mot lösning Bottom-up Integrera
Vad är webbarkivering?
Projektplan ID Aktivitet Beskrivning Kommentarer Förstudie webbarkivering Se rapporterna LTU-webb och LDB- Webb Lena tillsammans med Ltu Iterativ kravspecifikation Växer fram under projektets gång Slutversion när projektet är klart Verktyg för insamling av webben Crawling verktyget Heritrix Installation, konfiguration, testkörningar Verktyg för indexering Nutch Wax Installation, konfiguration, testkörningar
Projektplan Verktyg för indexering Verktyg för visning WARC-Format WARC-tools Nutch Wax Way Back Machine Utvärdering, analys av WARC med avseende på långtidsbevarande Inlärning, utvärdering och vidareutveckling av befintlig C-bibliotek för läsning/skrivning av WARC container. Installation, konfiguration, testkörningar Installation, konfiguration, testkörningar Droid Verktyg för filidentifiering Användargränssnitt Webbgränssnitt för plattformen. Användning av repository (Fedora?) Egenutvecklade program INGEST Migrering Baseras på senare beslut För att binda ihop verktygen till en sammanhängande process Skapa arkivpaket Hantering av arkivpaketet i repository Konvertering av WARC Tillgängliggörande Presentation av migrerat WARC
Tidplan 1:a januari 2008 Mars Juni April 2008 Augusti December 2008 Projektet startar Förstudie Rekrytering Webbarkivering Verktyg Installation, insamling av LTU s och RA,s gamla webb.webb siter Januari 2009- Juni 2009 Utveckling av programvara för WARC Utveckla webbservices Bygga användargränssnitt Integrera Crawlingsverktyg + program för hantering av WARC + användargränssnitt till en enhet. Testa och färdigställa fas 1, Augusti 2009 december 2009 Förarbete & analys : Hur bygger man ett AIP av WARC? Är RA:S paketstruktur applicerbart för WARC? Har KB / IIPC utgivna riktlinjer i denna fråga? Januari 2009 April 2010 Maj 2010 - oktober 2010 November 2010 December 2010 Bygga AIP för WARC Migrera WARC Tillgängliggörande av migrerad WARC-fil Integrera, Testa, Färdigställa plattformen
Arkitektur & Implementation Göran Lindqvist
Arkitektur
e6e72634-7160-4274-a754-e9af0fc59d73 43694f98-4c1a-4601-9648-e561c0d85945 WARC WARC 43694f98-4c1a-4601-9648-e561c0d85946 fb0430ec-4d5e-4ef0-ad62-99a31ece886a fb0430ec-4d5e-4ef0-ad62-99a31ece886b fb0430ec-4d5e-4ef0-ad62-99a31ece886c fb0430ec-4d5e-4ef0-ad62-99a31ece886d fb0430ec-4d5e-4ef0-ad62-99a31ece886f
e6e72634-7160-4274-a754-e9af0fc59d73 43694f98-4c1a-4601-9648-e561c0d85945 43694f98-4c1a-4601-9648-e561c0d85946 WARC WARC fb0430ec-4d5e-4ef0-ad62-99a31ece886a fb0430ec-4d5e-4ef0-ad62-99a31ece886b fb0430ec-4d5e-4ef0-ad62-99a31ece886c fb0430ec-4d5e-4ef0-ad62-99a31ece886d fb0430ec-4d5e-4ef0-ad62-99a31ece886f <filename>ldb-20081203141713-00000-server2.warc</filename> <identifier>43694f98-4c1a-4601-9648-e561c0d85946</identifier> <date>2008-12-03t14:17:13z</date> <relation>e6e72634-7160-4274-a754-e9af0fc59d73</relation> <rights/> <migrated_records/> <FileCollection> <DROIDVersion>3.0</DROIDVersion <SignatureFileVersion>16</SignatureFileVersion> <DateCreated>2009-05-08T14:40:20</DateCreated> <IdentificationFile IdentQuality="Positive"> <FilePath>/home/goran/warctools_temp/dump/fb0430ec-4d5e-4ef0-ad62-99a31ece886c</FilePath> <FileFormatHit> <Status>Positive (Specific Format)</Status> <Name>Hypertext Markup Language</Name> <Version>4.01</Version> <PUID>fmt/100</PUID> <MimeType>text/html</MimeType> <IdentificationWarning>Possible file extension mismatch</identificationwarning> </FileFormatHit> </IdentificationFile>
Teknisk miljö GUI / insamling och tillgängliggörande Heritrix 2.02, wayback machine 1.4.2, mysql, Aphache 2, Tomcat 5.5 format (omslutande) WARC Skrivet GUI i PHP samt Java och JSP (java server pages) Körs på Linux (ubuntu 9.0.4) Extrahering och identifiering Droid 3, modifierat Warc extract, DC-light xmlstruktur Skrivet (obj) C, samt java (10 klasser) Körs på Linux (ubuntu 9.0.4) Analys SQL server 2008 (stored procedures), Java applikation server (glassfish 2) Skrivet GUI Java och JSP (java server pages) Körs på MS server 2003
Frågor?
Kommande aktiviteter Möjliga samarbetsområden (resurssamordning) 1. Skapa arkivpaket AIP (RA s paketstruktur) Trusted Digital Repository 2. Migrering av innehåll i WARC (KB, RA) Ny WARC eller förändring i den gamla Har IIPC hanterat/funderat över detta? Lagliga / juridiska aspekter 3. Tillgängliggörande av migrerat WARC (KB, RA) Har Wayback stöd för migrerat WARC? Har IIPC hanterat/funderat över detta? 4. Hanteringen av WARC i Fedoras repository (KB) Hör hemma i konceptet inte (absolut) nödvändigt för projektet
Vad är AIP I webbarkiveringssammanhang? SIP(AIP) METS Package level Technical metadata PREMIS Authority records EAC Archival description EAD Archival structure level ERMS MoReq2 Economical systems SIE-XML Data bases ADDML Other systems To be defined System structure level Context metadata Manual Digital data object TIFF Digital data object XML Digital object PDF/A Object level
Vad är AIP I webbarkiveringssammanhang? SIP(AIP) METS Package level Technical metadata PREMIS Authority records EAC Archival description EAD Archival structure level ERMS MoReq2 Economical systems SIE-XML Data bases ADDML WARC? System structure level Context metadata Manual Digital data object TIFF Digital data object XML Digital object PDF/A Digital object HTML Object level
Trusted Digital Repository De verktyg som vi skapar i Testplattformen ska upplevas som så trovärdiga som möjligt TRAC ( hjälpmedel för självutvärdering av organisationer som håller digitala arkiv.) TRAC definierar tre olika områden A.Organisationens infrastruktur B. Hantering av digitala objekt C.Teknologier, teknisk infrastruktur och säkerhet Några punkter där vi redan arbetar enligt TRAC eller där vi inom kort kommer att göra det :
B1.4 Repository s ingest process verifies each submitted object (i.e., SIP) for completeness and correctness as specified in B1.2. B1.8 Repository has contemporaneous records of actions and administration processes that are relevant to preservation (Ingest: content acquisition). B2.1 Repository has an identifiable, written definition for each AIP or class of information preserved by the repository. B2.5 Repository has and uses a naming convention that generates visible, persistent, unique identifiers for all archived objects (i.e., AIPs).
B2.7 Repository demonstrates that it has access to necessary tools and resources to establish authorative semantic or technical context of the digital objects it contains. B2.9 Repository acquires preservation metadata (i.e., PDI) for its associated Content Information. B2.11 Repository verifies each AIP for completeness and correctness at the point it is generated. B4.4 Repository actively monitors integrity of archival objects.
Tack för uppmärksamheten! Besök oss på: www.ldb-centrum.se hamid.rofoogaran@ldb-centrum.se