Pass 2: Datahantering och datahanteringsplaner

Relevanta dokument
Pass 2: Datahantering och datahanteringsplaner

Pass 2: Datahantering och datahanteringsplaner

Övergripande principer för dokumentation. SND Svensk nationell datatjänst

Stadsarkivets anvisningar 2011:1 Hantering av allmänna e-handlingar som ska bevaras i Uppsala kommun

BAS Online Svensk nationell datatjänst, SND

Pass 2: Datahantering och datahanteringsplaner

Elements, säkerhetskopiering och dina bilder

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Datahantering och tillgång till forskningsdata

Lär dig grunderna om Picasa

VÄLKOMNA. Doktorandnätverksträff Tema: Datahantering.

Svensk nationell datatjänst en infrastruktur för forskningsdata inom samhällsvetenskap, humaniora och medicin

Svensk Nationell Datatjänst, SND Checklista datahanteringsplan version 008, Checklista för datahanteringsplan

SENIORER SENIORER. Grundläggande IT för. Windows 7. Grundläggande IT för. Windows 7. Eva Ansell Marianne Ahlgren. Eva Ansell Marianne Ahlgren

För att kunna använda konsulentuppsättningarna, skall på varje enskild dator göras följande inställningar.

Din guide till. Byte av databas. Från MSDE till SQL Express

Memeo Instant Backup Snabbguide. Steg 1: Skapa ett gratis Memeo-konto. Steg 2: Anslut din lagringsenhet till datorn

FORT! Installera programmet nu!

Henrik Asp. Allt du behöver veta för att KÖPA DATOR

Flytt av. Vitec Mäklarsystem

Starta och stänga av datorn. Att starta är i allmänhet problemfritt, men man bör vänta med aktiviteter (starta program) tills startfilerna är

Magnus Palm. Lättläst IT

Vad är Svensk nationell datatjänst och hur kan det bistå dig kring forskningsdata och datahantering?

Laboration 0. Enhetsbokstaven anges med ett kolon efter och man läser ofta ut detta, exempelvis C:(sekolon).

Svensk Nationell Datatjänst, SND Checklista datahanteringsplan Checklista för datahanteringsplan

Migrera från KI Box till KI Cloud

Användarhandbok. Nero BackItUp. Ahead Software AG

Patrik Calén

Svensk Nationell Datatjänst

INSTALLATIONSGUIDE. Uppdatering av ditt Mamut-system

Ordning och reda i datorn. Såhär?

Säkerhetskopiera och återställa

Innehåll. 7. Hur vet jag vilken storlek på licensen jag har?... 19

Frågor och svar om TNC-term

Backup Premium Snabbguide

GitHub for Windows och GitShell

Möte med kommunen. att tänka på före, under och efter besöket

LATHUND FÖR FRAMGANGSRIKT PAVERKANSARBETE. 2. Möte med. att tänka på före, under och efter besöket

Svensk nationell datatjänst, SND BAS Online

Om Mappar Uppgift 1: Skapa en mapp på Skrivbordet... 2 Om enheter... 3 Uppgift 2: Byt namn på din nya Höst -mapp till Vår...

Arkivera sociala medier och hemsidor

Så här hanterar du din OneDrive i Office 365

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Pass 4: Metadatastandarder

Checklista för datahanteringsplan. Svensk Nationell Datatjänst, SND Checklista datahanteringsplan

Svensk Nationell Datatjänst, SND Checklista datahanteringsplan Checklista för datahanteringsplan

Välj bort om du vill. 96 Internet och e-post. 2. Mail-programmet finns i datorn. 1. Skriv mail i sökrutan. Windows Live Mail i Aktivitetsfältet.

Vad händer på SND. Arbetet framåt. Max Petzold

Installation av Microsoft Office Version 2.1

Installationsanvisning - Kopplingen mellan GK96 och golf.se -

Miljön i Windows Vista

Fillagringsplatser. Fillagringsplatser (information om fillagringsplatserna du har att tillgå på Konstfack) Inledning... 12

Länk till modulen Skapa Filarkiv

Du startar Jag Vill genom öppna mappen och klicka på programfilen Jag_Vill

Så här fungerar Version 21 okt

3. Hämta och infoga bilder

Här får du svar på vanliga frågor om Vårdförbundets gallring av e-post och fortsatta e-posthantering.

Pass 2: Datahantering och datahanteringsplaner

Kopiera musik och program till hårddisken och skicka sedan skivorna på semester i förrådet. Spara skivorna

Installation av datafil för lokal lagring av e-post i Microsoft Outlook 2016

Digital arkivering och historiklagring Anastasia Pettersson och Anders Kölevik

Innehåll. 9. Hur vet jag vilken storlek på licensen jag har?... 16

BLI VÄN MED DIN DATOR ENHETER MAPPAR FILER

7. Utforskaren. Maximera gärna fönstret, då ser du allt innehåll på en gång och slipper skrolla.

eller Snabbkurs i filhantering Tema: Mappar och filer i Windows samt Lagringsenheterna OBS! Endast för medlemmar i SeniorNet, Klubb Södertälje!

EndNote X8. Bygg ditt eget referensbibliotek. - där du samlar referenser från olika databaser på ett och samma ställe

MANUAL. Innehållsförteckning

Säkerhetskopiering och återställning Användarhandbok

Kulturella hjärnan 2015

Uppdatera Metem 3005 till M7005

1. Säkerhetskopiera den eller de byråer du har arbetat med via i Visma Klient.

Checklista för datahanteringsplan. Svensk Nationell Datatjänst, SND Checklista datahanteringsplan

Pass 5: Dokumentation av forskningsdata

När du startat programmet dyker Select Project fönstret upp:

Vad jag vill med denna kurs är att vi ska använda oss av olika mappar, som gör det överskådligt.

Viktigt! Vill du ha möjligheten att återställa originalbilarna utan hemladdning läs nedan om återställning innan du börjar med installationen!

Lathund Office online

Skapa din egen MediaWiki

Väl installerat får du en ikon som du förhoppningsvis också hittar Så du klickar på den och startar upp programmet:

Hitta en artikel som använt samma teoretiker i samma sammanhang som du. Viktor Öman, bibliotekarie viktor.oman@mdh.se

LOTTA MANUAL. t.o.m. version Cederlund

Rolf Andersson och Kerstin Carlborg, mars och sist och slutligen: ta backup Tsff

1. Starta om din Mac. 2. Kontrollera din Internetuppkoppling

Säkerhetskopiering. Vid säkerhetskopiering av Capitex Säljstöd så är det viktigt att säkerhetskopiera följande information.

Säkerhetskopiering och återställning Användarhandbok

Bilaga KeyControl Felsökning

SND:s användarguide för Colectica for Excel

Allmänt. Välkommen till SVENSKA VÅGs datorprogram för räknevägning på PC.

y y 1 = k(x x 1 ) f(x) = 3 x

5HVLVWHQVWDEHOO 'DWD3DUWQHU. Er partner inom data

Räkneprogram för stomiartiklar HANDLEDNING

Ordning och reda i datorn. Såhär?

VÄLKOMNA! SND workshop 15 november

ANVÄNDAR MANUAL. SESAM 800 RX MC Manager

Steg 1 Minnen, mappar, filer Windows 10

Manual för Typo3 version 4.2

LVDB i GEOSECMA. Innehåll. Inledning. Produkt: GEOSECMA Modul: LVDB Skapad för Version: Uppdaterad:

Interaktiv hjälp till Disgen 2016

HANTERA DOKUMENT I OFFICE FÖR LIVE@EDU (SKYDRIVE)

oneprintpdfinvoice :46

Transkript:

Pass 2: Datahantering och datahanteringsplaner Centrala områden inom datahantering I den här presentationen ska jag ta upp tre huvudsakliga områden inom datahantering och några centrala delar av dessa. Först och främst är det viktigt att komma ihåg att datahantering och datahanteringsplaner är något som man bör ha med sig genom hela forskningsprocessen, från den spirande projektidén till det färdiga projektet med dess publicerade artiklar och tillgängliggjorda data. Och oavsett vilken sorts projekt det rör sig om och vilka sorters data som ingår i det så är det tre huvudsakliga områden som man behöver fundera kring: organisation, dokumentation och teknik. Organisation Det första området som datahanteringsplaner omfattar handlar om att ha ordning på saker och ting. Ett exempel på en väsentlig form av organisation är versioneringen. Det är väldigt lätt att råka göra fel som kan leda till onödigt merarbete. Bra versionering ska göra det möjligt att se vilken som är den senaste versionen av ett dataset och hålla ordning på vad som har gjorts med olika versioner, så att man vet var i arbetsflödet en specifik fil befinner sig, och så att eventuella fel kan spåras bakåt. Versioneringsregler bör vara så enkla som möjligt och så komplicerade som nödvändigt, med det är en god idé att åtminstone ha en lista med information om vad som skiljer varje ny version från den föregående. God versionering gör också att man kan koppla olika versioner av olika filer till varandra inom projektet, och versioner kan användas för att markera på vilket stadium i en process som filer befinner sig. Faktum är att versionering inte endast kan användas för data. Enkla varianter av versionering gör även texthantering effektivare, och inte minst datahanteringsplanen i ett projekt bör versioneras eftersom den ska vara ett levande dokument som uppdateras utifrån nya beslut och ändrade förutsättningar. Hur många personer känner du som har perfekt ordning på sina filer på hårddisken? Under en löpande verksamhet så verkar det vara ofrånkomligt att man improviserar lite vad gäller strukturer, men för ett forskningsprojekt finns det allt att vinna på att man har data och annat material på ett logiskt och planerat sätt. Enklaste sättet att åstadkomma det är att i förväg fundera på vad en rimlig struktur skulle kunna vara för den information som kan förväntas dyka upp i projektet. Ju färre nivåer man har i sin mappstruktur, 1

desto svårare är det att hitta rätt, men det går att gå till överdrift också. Och det kan vara en idé att tänka igenom strukturerna om de inte visar sig tillräckliga istället för att börja improvisera: konsekvens är ett nyckelord! Egentligen är det här inga konstigheter, men med tanke på hur ofta man träffar någon som verkar ha alla sina filer på Windows-skrivbordet så tål det att påpekas med jämna mellanrum. Konsekvens och struktur är viktigt även när det gäller filnamn. Låt oss börja med ett exempel som visserligen är fingerat men ligger ganska nära sanningen. För samma projekt skulle filerna antingen kunna vara namngivna så här: talare1_ord_v0_orig.wav talare1_ord_v1_ren.wav talare1_ord_v2_ren.wav talare1_ord_v3_ren_slutlig.wav eller så här: PeterS_ordlista_17jun.wav talare1_ord_slutlig.wav talare1_slutlig2.wav talareps_ord_ren.wav I det första exemplet är det lätt att förstå hur filerna hänger ihop. Filnamnet anger vilken talare det rör sig om talare 1 i det här fallet. Det syns att det rör sig om materialet ord, och vilken version av datasetet som varje fil innehåller. Den första filen är tydligt markerad som originalinspelning, de andra är rensade på något sätt, och version 3 är den slutgiltiga versionen. Det andra exemplet är mer svårtytt. Rör det sig om samma talare i alla filerna? Är ordlista samma sak som ord? Hur förhåller sig ren till slutlig och slutlig till slutlig 2? Inkonsekvenserna gör det om inte omöjligt så svårt att avgöra vad filerna innehåller. En anledning till att vara noggrann med hur man namnger sina filer och inte bara förlita sig på en god mappstruktur är risken att filerna skulle kunna trilla ur sina mappar av misstag eller genom att någon kopierar bara enstaka filer till någon annan mapp eller till en annan lagringsenhet. SND fick in ett dataset med en väldigt bra mappstruktur som innehöll hundratals bildfiler. Man kunde tydligt se vilken plats de kom ifrån, vilket motiv på just den platsen som hade fotograferats och när bilderna 2

tagits. Men i strukturens nedersta mappar låg bilderna, namngivna A, B, C, D, E, F och så vidare. Det här var inget problem så länge de stannade i mapparna, men om dessa skulle försvinna så skulle man bli sittande med femtioelva filer som heter A utan aning om vart varje fil hörde. Det finns därför anledning att ha ganska mycket information i filnamnen. För säkerhets skull. Med andra ord, organisera data så att det är lätt att hitta rätt version och rätt filer och var framför allt konsekvent i tillämpningen av systemen. Dokumentation Det andra övergripande området rör dokumentation. Den första av våra tre centrala punkter är att man ska använda standarder. Förutom fördelarna som finns med att inte uppfinna hjulet på nytt så blir det lättare att jämföra med andra material som andra har använt. Många forskare är ovana att använda metadatastandarder för att strukturera information om forskningsmaterial, så det viktiga att förmedla är att det helt enkelt handlar om att beskriva saker på samma sätt som andra gör. Loggar är vanliga inom vissa discipliners forskningsmetodik men ovanliga inom andra. Men oavsett vilka material man arbetar med är det en god idé att logga inte bara vad man gör med sitt forskningsmaterial utan även vilka beslut man fattar. Information om till exempel varför används de här filnamnskonventionerna? eller varför ser mappstrukturen ut så här? kan vara bra att logga både för egen och andras skull det vill säga man uppdatera sin datahanteringsplan med den. Informationen man samlar om datahanteringen behöver vara lätt att hitta och lätt att följa. Är systemen för hur man dokumenterar svåra att förstå eller tar för mycket tid att hålla sig till är risken att man själv eller de man arbetar med inte följer dem. Då har man byggt in möjligheten att datahanteringen och dokumentering går åt skogen. Den dokumentation man har behöver dessutom vara begriplig både för en själv och för andra, oavsett om dessa andra är projektparter, tidskrifternas granskare eller sekundärforskare. Men det här gäller förstås inte bara forskare utan alla som på ett eller annat sätt jobbar tillsammans med andra människor. Teknik Det tredje området handlar om teknik. Vikten av säkerhetskopior har vi berört tidigare men den tål att upprepas. Det finns en tumregel som rekommenderar tre kopior av viktiga data: en lokal kopia av data som man jobbar med just för tillfället, till exempel på en arbetsstation eller dator; en kopia 3

som är lokal men inte ligger i datorn och riskerar att försvinna om den skulle bli stulen. Det kan vara en extern hårddisk som man tar ur och lägger i en låda eller kanske till och med låser in. Och även att man sparar på ett medium som inte är i samma byggnad, gärna på en av lärosätets servrar. Då har man lite bättre chans att saker och ting klarar sig även om det blir inbrott eller brand eller liknande. Kom även ihåg att CD:ar och DVD:er förstörs över tid och inte är säkra medier för långtidslagring. Beroende på typ av optiskt medium och vem man frågar så är livslängden mellan tjugo och tvåhundra år. Det kan handla om att enstaka bitar har förändrats, men det räcker att en bit förändras för att förstöra data. Om en etta blir en nolla på ett oturligt ställe så kan det ändra ett värde och göra filen oläslig eller åtminstone förändra hela datasetet. Det här är med andra ord medier som man inte ska använda för långsiktigt bevarande. Det finns mycket att säga om filformat. Generellt kan man säga att när man ska välja filformat bör de vara så vanliga och allmänna som möjligt. Ovanliga och specialiserade filformat riskerar att inte kunna öppnas i framtiden. Inte minst proprietära filformat filformat som privata företag har upphovsrätt till riskerar att vara svåra eller omöjliga att läsa i framtiden, eller kräver program som inte alla har tillgång till. Har programmet öppen källkod Open Source eller sparar filerna i ett standardformat så ökar chansen att informationen i filen är tillgänglig även i framtiden. En länk till rekommendationer om lämpliga filformat finns nedan. Där finns även en länk till ett antal dokument med best practices för olika typer av data. När det gäller programvaror och verktyg ska man fundera på till exempel om inställningar, programvaruversioner och modeller som används för att samla in, analysera eller på annat sätt hantera data kan påverka utfallet och således kan behöva dokumenteras. Det beror väldigt mycket på inom vilket område man forskar: för vissa är svaret ett självklart nej och för andra är det ett lika självklart ja. En annan fråga att ställa sig är huruvida man har kod eller program eller skript som man har specialdesignat för att analysera eller på annat sätt arbeta med sina data. Om så är fallet kan dessa också behöva dokumenteras och sparas tillsammans med data för att möjliggöra framtida användning. En viktig fråga nu när databaser blir en allt vanligare form av resultat från forskningsprojekt är hur dessa databaser ska kunna fortsätta drivas vidare långt efter att projektet är avslutat, kanske för all framtid. Idag är det här ett 4

vanligt problem, så om forskare söker medel för att skapa en databas som ska hållas tillgänglig efter projektslut är det värt att uppmana dem att fundera på hur databasen ska driftas, vem som ska drifta den och vem som ska betala för det. Det är inte roligt att hamna i samma situation som en forskargrupp vid ett stort universitet. De hade lovat finansiären att projektet skulle resultera i en databas som skulle drivas i tio år efter projektslut, men de hade inte begärt medel för driften. De plockade in en utländsk utvecklare som byggde databasen åt dem och som sedan åkte hem igen. Där satt de med ett åtagande till finansiären men utan någon som visste exakt hur databasen fungerade eller hur den skulle underhållas framöver. Det är med andra ord värt att tänka på det här på ett tidigt stadium. Det går att plocka ned en databas och spara den, men det är inte samma sak som att ha den uppe och tillgänglig via nätet för andra forskare. Det blir ännu mer komplicerat om det handlar om en databas som är tänkt att vara levande och utökas löpande över tid då behöver den ännu mera vård och omsorg och finansiering. Så med andra ord, tänk framåt så är en hel del förhoppningsvis vunnet. Sammanfattning Den här presentationen har gett en kort översikt över tre huvudområden inom datahantering: konsekvent organisation, med fokus på versionering, lagringsstrukturer och namnkonventioner för filer; begriplig dokumentation genom standarder, loggar och samlad information; och ett framåttänk vad gäller teknik, som säkerhetskopiering, filformat och programvaror. Nästa presentation kommer att ta upp hur SND:s checklista kan stötta utvecklingen av datahanteringsplaner. Referenser Svensk nationell datatjänst. (2017) Best practices för olika datatyper: https://snd.gu.se/sv/datahantering/guider (Hämtad 2018-03-05) 5