Arkivet och mängdläran, Magnus Wåhlberg, B-uppsats i arkivvetenskap, Stockholms universitet 1997.!""#$%$#%" $&'#()%(*!$$##+,--. I
1. Abstract The following article describes how it could be possible to apply set theory to modern digital archives. The author proposes that unordered finite sets are used for the description of this type of archives. A subset in a digital archive may exampli gratia be a spreadsheet file. Every subset could include information about the subset s authenticity and access rights. The author believes that applying set theory to the description and construction of digital archives has good prospects of solving some of the problems with handling digital archives. 2. Syfte Denna uppsats behandlar hur mängdläran kan användas för att beskriva på vilket sätt informationen i digitala arkiv är strukturerad och hur den kan struktureras. 3. Förord Med detta korta verk gör jag inte anspråk på att lösa de praktiska svårigheter som uppstår vid systematiserandet (ordnandet och förtecknandet) av digitalt arkivmaterial, utan det jag behandlar är hur man från en teoretiskt utgångspunkt kan överblicka strukturen på informationen i en del av ett arkiv, i ett arkiv, i flera arkiv, eller arkiv som är sammanblandade på olika intrikata sätt, med hjälp av en modell utformad efter mängdläran. Det är antagligen möjligt att från senare mer utvecklade modeller praktiskt utforma hela system och standarder för hanterandet och bevarandet av främst digital information. Denna uppsats är endast ett första stapplande steg i ett fält som både kan utvidgas och fördjupas. 4. Inledning Ett arkiv brukar i Sverige traditionellt beskrivas som ett bestånd av handlingar, eller mer fullständigt som Nils Nilsson skriver: /.../ ett bestånd av handlingar som efter hand har växt fram hos en arkivbildare till följd av dennes verksamhet och lagts för förvaring (arkivlagts) hos denne. 1 (Nilssons kursivering.) Om man omformulerar Nilssons definition i mer generella termer består ett arkiv av något materiellt, som existerar eller har existerat som en konsekvens av minst ett subjekts handlingar och önskningar. Nilsson ser här på arkivet som ett oföränderligt objekt. Arkivet 1 Nilsson Nils, Arkivkunskap, s.19. II
lever inte enligt Nilsson. Arkivet är dött. Det är endast en kvarlämning från en tidigare samhällsprocess. Då Nilsson skrev ovanstående definition i början av 1970-talet hade datorteknologin precis börjat sitt härtåg över världen och det vi ser idag är början till en fullständig revolution av mänskligt tänkande och perception av information, vilket kraftigt kommer att förändra och upplösa arkivbegrepp som fungerat utmärkt och verkat oantastliga sedan slutet av 1800- talet. David Bearman skrev redan år 1989 att: In the relatively near future the greater part of the archive of our society will consist of vast, machine readable, databases consisting of randomly stored and indiscriminately collated, primary and secondary, published and unpublished materials. /.../ the immense size of the potential virtual database, its diverse authorial sources, and the range of its potential uses will present tremendous challenges to those who seek to provide access to it. 2 Den ökande användningen av globala nätverk gör att informationen som skall bevaras till eftervärlden (arkiveras) blir allt svårare att lokalisera till en bestämd tid och plats. Den får också helt annan karaktär. Den går endast delvis att bevara på papper eller mikrofilm, den går inte att avgränsa utifrån fasta arkivscheman och den är i ständig förändring. Ett klassiskt arkiv kan betraktas som en statisk avbild av en en gång levande process. Skapandet och formandet av det klart avgränsade arkivet sker här vid flera olika tidpunkter, och av minst ett subjekt, efter förhoppningsvis fastställda regler och direktiv. Notera att ett klassiskt arkiv, enligt mitt synsätt, mycket väl fysiskt kan bestå av databärare som magnetband och optiska skivor. Ett digitalt arkiv däremot är i ständig förändring. Varje försök att få en total helhetsbild av detta arkiv, genom att vid ett tillfälle kopiera arkivets information, är dömt att misslyckas, då informationen nästa ögonblick är förändrad. Försöket att fånga arkivets information blir bara ett kirugiskt snitt vid en godtycklig tidpunkt och ingenting mer. Ett digitalt arkiv kan i den enklaste formen motsvaras av exempelvis en databas, men det kan likaväl omfatta en hel planets samlade digitala informationsmängd. I ett senare avsnitt kommer begreppet digitalt arkiv att förklaras mer utförligt, men innan detta sker tänkte jag introducera läsaren i de absoluta grunderna för mängdläran. 5. Kort introduktion till mängdläran Mängdläran är en del av matematiken som grundlades under 1870-talet av tysken Georg Cantor (1845-1918). 3 Mängdläran utgår från begreppet mängd, vilket enligt Cantor definieras enligt: En mängd är våra sinnesförnimmelsers och tankars bestämda och från varandra väl skiljbara objekts sammansättning till en helhet. 4 (Saarnios kursivering.) En mängd kan exempelvis vara: alla människor i en tunnelbanevagn, antalet hårstrån på 2 Bearman David, Archival Methods, s. 49 3 Karush William, Matematisk uppslagsbok, s.38. 4 Saarnio Uuno, Ord och mängd, s. 6. III
läsarens huvud, alla rosor i en förfallen trädgård, en japansk familj, alla handlingar i general von Buchmachers arkiv. En mängd byggs upp av dess delar, även kallade element. Ett element kan vara antingen ett enskilt element som exempelvis talet 6, en bok av Strindberg, en skorsten, eller så kan det vara ytterligare en mängd som alla jämna tal, alla blå böcker, alla skorstenar av plåt et cetera. Matematiskt åskådliggörs en mängd exempelvis på följande sätt: A={päron, bananer, äpplen} I detta fall består mängden A av elementen päron, bananer och äpplen. Ytterligare exempel på en mängd är: B={päron, druvor, citroner} Där mängden B består av päron, druvor och citroner. I bild I visas förhållanden mellan mängderna A och B. B A bananer päron citroner druvor äpplen Ω=Α Β Bild I. Venndiagram för mängderna A och B med universumet Ω. I uppsatsen kommer jag att använda ett mindre antal operatorer vilka används inom mängdläran. (En matematisk operator är exempelvis +, vilken adderar två tal till en summa, alltså term a + term b = summa c.) För att ge den matematiskt mindre insatte läsaren en möjlighet att följa huvudtankarna i mitt resonemang runt digitala arkiv försöker jag därför kort introducera vissa operatorer genom exempel utifrån mängderna A och B. Den första operatorn jag introducerar är (snittet). Denna symbol används för att se vilka element som är gemensamma mellan två mängder. Med mängderna A och B enligt ovan fås: IV
A B={päron} Vilket utläses snittet av mängderna A och B är mängden {päron}. Nästa operator är (unionen). Unionen av två mängder består av alla element, som tillhör minst en av mängderna A och B och vilken i exemplet nedan utläses som unionen mellan mängderna A och B är {päron, bananer, äpplen, druvor, citroner} : A B={päron, bananer, äpplen, druvor, citroner} Ytterligare ett praktiskt exempel på en union är mängden Europeiska Unionen som består av elementen England, Frankrike o.s.v., det vill säga medlemsländerna. Efter att nu ha introducerat snittet och unionen tänkte jag övergå till begreppet universum, även kallat grundmängd. Med universum menas den grundmängd som innesluter alla andra mängder, som man studerar vid ett specifikt tillfälle. Ett universum kan till exempel vara alla arkiv inom en arkivinstitution. I fallet ovan kan universumet, Ω, exempelvis vara den mängd som innefattar alla element i mängderna A och B, vilket ger: Ω=A B={päron, bananer, äpplen, druvor, citroner} Universumet, Ω, är i detta fall unionen mellan A och B, men det skulle likaväl kunna tänkas innehålla fler element än de som uppges ovan. A utgör här en äkta delmängd till grundmängden Ω, universumet, vilket betecknas som: A Ω Den tredje och sista operatorn jag tänkte presentera är (komplementet). Komplementet av mängden A är den mängd som utgörs av de element som inte ingår i mängden A, men som ingår i universumet Ω. Med mängden A och universumet Ω enligt ovan fås: ΩA=Ω A={druvor, citroner} Vilket utläses komplementet av mängden A med avseende på universumet Ω är mängden {druvor, citroner}. Med andra ord druvor och citroner finns inte i mängden A, men de finns i universumet Ω. Mängder kan indelas i ändliga och oändliga mängder. I uppsatsen kommer endast ändliga mängder att beröras. Mer specifikt kommer endast oordnade ändliga mängder att användas. V
För den läsare som är intresserad av att läsa ytterligare om mängdläran finns några läsförslag i Appendix A. De mer formellt korrekta definitionerna av olika mängdbegrepp och symboler finns i Appendix B. 6. Definition av begreppet digitalt arkiv Med ett digitalt arkiv avser jag: 1) Ett arkiv som lagras i ett aktivt maskinellt system, som är utfört i elektronisk, optisk eller organisk teknik, baserad på förhållandet mellan två kvantifierade tillstånd. 2) Att arkiv där all information är direkt tillgänglig utan några extra manuella operationer. 3) Ett arkiv där den logiska ordningen mellan arkivets delar (den inre proveniensen, le respect de l ordre intérieure ) och avgränsningen mot andra arkiv (den yttre proveniensen, le respect des fonds ) inte är central. 7. Analys av det digitala arkivet Detta avsnitt beskriver huvudsakligen hur mängdläran kan användas för beskrivning av ett digitalt arkivs informationsstruktur. Gallring, autenticitet och accessrättigheter behandlas även i korta ordalag. Ett arkiv kan betraktas som en mängd, en samling av information. Denna mängd är i sin tur uppbyggd av delmängder, där delmängderna motsvarar serier i ett klassiskt arkiv. (I ett digitalt arkiv kan en delmängd vara en databas, en fil, en hemsida, en specifik kategori av ärenden et cetera.) Om man nu betecknar arkivet med bokstaven A, och delmängderna I 1 I m så fås att: A={I 1, I 2 I m } där m är antalet delmängder i A. Arkivet A, eller arkivmängden A, består här av de klart urskiljbara delmängderna I 1 I m. Denna form av enkel modell kan utvecklas för att beskriva strukturen av det klassiska arkivet, med huvudrubriker, serier, volymer, handlingar och så vidare. För att beskriva det digitala arkivet är den dock ofullständig. Det digitala arkivet har ofta ingen klar avgränsning mellan olika delar inom arkivet och mot andra digitala arkiv. (Till exempel länkar och hyperlänkar gör att det är mycket svårt att göra en exakt avgränsning enligt klassiskt arkivschema. Detta gör att information kan virtuellt finnas på otal olika logiska platser trots att den reellt endast finns på ett.) Det digitala arkivet A utgörs av unionen mellan delmängderna I 1 I m. Det digitala arkivet A är med andra ord den totala informationsmängden av innehållet i delmängderna I 1 I m, eller matematiskt uttryckt: VI
m A={I 1 I 2 I 3 I m }= I t där m är antalet delmängder i A. t=1 Varje delmängd består i sin tur av ytterligare element. (För att inte ytterligare komplicera för läsaren tänker jag i fortsättningen förutsätta att elementen i delmängderna är klart avgränsbara mot varandra.) Varje delmängd innehåller för det första själva informationen, texten, filen, bilden eller dylikt, säg att denna information betecknas med α. För det andra kan delmängden kompletteras med information om delmängdens information α. En form av metadata om man skall göra en liknelse. Nödvändig tilläggsinformation skulle exempelvis vara ett autenticitetselement som intygade delmängdens äkthet, en form av elektroniskt sigill, säg att detta element betecknas med β. En annat nödvändigt informationselement skulle kunna vara en beskrivning av vem som har rättighet att läsa informationen, accessrättighet, säg att detta element betecknas med γ. Varje delmängd I x ser då ut på följande sätt: I x ={α, β, γ} där I x är en godtycklig delmängd till A. Delmängden I x kan sedan ytterligare utökas med information om delmängdens lagringsstandard eller dylikt, säg att denna del betecknas med δ, så att resultatet blir: I x ={α, β, γ, δ}. Ett konkret exempel vore om I x är en komplett databas, finns databasens text, innehåll i elementet α, bevis för att databasen innehåller korrekt information i β, accessrättigheter i elementet γ, och information om databasens lagringssätt i δ. Förutom denna information skulle även delmängden Ix behöva innehålla information om databasens inre struktur och så vidare. Detta konstaterande ger en indikation till att en godtycklig arkivmängd behöver uttryckas med ett stort antal element förutom själva informations/ text -elementet α. Ett sätt att generalisera detta faktum är att beskriva det på följande sätt: I x ={ε 1, ε 2 ε p } där p är antalet element i delmängden I x. I ovanstående fall motsvarar ε 1 elementet α, ε 2 elementet β, ε 3 elementet γ, ε 4 elementet δ och så vidare till elementet ε p. I och med detta har jag visat grunderna för hur man beskriva ett godtyckligt digitalt arkiv med hjälp av mängdlära. Nästa steg består av att helt kort redogöra för hur olika former av gallring kan beskrivas. Antag först att en delmängd i ett digitalt arkiv A skall utgallras, tas bort ur arkivmängden A. Säg att den arkivmängd som skall utgallras betecknas med bokstaven G, och att det avser delmängden I x, enligt följande: VII
G={I x } där I x är den delmängd som skall utgallras. Om nu det digitala arkivet innan gallringen betecknas med A på samma sätt som förut, och samma digitala arkiv efter gallringen betecknas med Â, fås Â=A G=A {I x } Med andra ord arkivmängden A (det digitala arkivet A) minskas med delmängden I x. Efter mängddifferensen (gallringen) blir arkivmängden  kvar (det gallrade digitala arkivet Â). Ett ekvivalent uttryck för att beskriva detta är: Â=A (AG)=A (A{I x }). Universumet är i ovanstående fall det digitala arkivet A. (Med andra ord beräknas komplementet AG med hänsyn till universumet A. Universumet, eller grundmängden är i detta förenklade fall samma sak som arkivmängden A.) Om man istället för att gallra ut en delmängd vill gallra ut ett visst element i en godtycklig delmängd, får man: G={ε y } där ε y är ett visst element som skall gallras ut och Î x =I x (I x G)=I x (I x {ε y }). I detta fall sker utgallringen inom den godtyckliga delmängden I x av det godtyckliga elementet ε y. (Universumet är i detta fall delmängden I x.) Resultatet blir den gallrade delmängden Î x. Om en utgallring av ett godtyckligt ε y element önskas inom alla delmängderna I x, inom hela det digitala arkivet A fås: m Â={Î 1 Î 2 Î 3 Î m }= Î t där m är antalet delmängder i A. t=1 Slutligen tänkte jag beskriva det fall då det inte finns någon klar avgränsning mellan de digitala arkiven A 1, A 2, A 3 A q där q är antalet arkiv som har en gemensam och oklar avgränsning, (Den yttre proveniensprincipen går inte att genomföra i detta fall.) De digitala arkiven A 1, A 2, A 3 A q kan då ses som delmängder i en större arkivmängd A, enligt: VIII
q A ={A 1 A 2 A 3 A q }= A t där q är antalet digitala arkiv i A. t=1 8. Slutsatser I denna uppsats har jag visat att det går att beskriva digitala arkiv utifrån mängdläran och att oordnade ändliga mängder räcker för detta syfte. Mängdläran kan användas för att avbilda handlingar eller arkiv som inte är klart avgränsade. Med andra ord kan mängdläran användas i de fall då den inre och yttre proveniensprincipen inte helt uppfylls. I uppsatsen har en grundläggande modell utvecklats som beskriver delarna ur ett digitalt arkiv, ett digitalt arkiv eller flera ej klart avgränsbara digitala arkiv. Modellen visar också hur exempelvis digital informations äkthet och accessrättigheter kan beskrivas, och hur gallring kan utföras i ett digitalt system. Modellen som endast antyds i denna uppsats kan utvecklas till betydligt mer omfattande och praktiskt användbara modeller. Att resonera utifrån mängdläran skulle eventuellt kunna bidra till utvecklandet av nya tidsmässigt stabila lagringsstandarder och därmed minskade konverteringskostnader. Appendix A, Litteraturförslag rörande mängdlära Breuer Joseph, Introduction to The Theory of Sets, (Englewood Cliffs, New Jersey, 1958) Kurarowski Kazimierz och Mostowski Andrzej, Set Theory, (Warszawa 1968) Petersson Kent, Beräkningsbarhet för dataloger: från λ till P, (Stockholm 1988) Tiles Mary, The Philosophy of Set Theory - An Introduction to Cantor s Paradise, (Oxford 1989) Appendix B, Symboler och begrepp inom mängdläran x A x A elementet x tillhör mängden A elementet x tillhör inte mängden A Låt A och B vara mängder och Ω deras universum (grundmängd). union snitt A B A B IX
mängddifferens A B komplement ΩA delmängd A B äkta delmängd A B union (mängden av mängder) n A t =A 1 A 2 A 3... A n där t=1, 2, 3... n t=1 Referensförteckning Bearman David, Archival Methods, (Tryckt år 1989 i Archives and Museum Informatics Technical Report, Vol 3 No. 1, omtryckt år 1991) Karush William, Matematisk uppslagsbok, (Stockholm 1970) Nilsson Nils, Arkivkunskap, (Lund 1973) Saarnio Uuno, Ord och mängd, (Jyväskylä 1960) X