DATAHANTERING Hur forskningsmaterial hanteras, organiseras och struktureras under hela forskningsprocessen. 1 2 3 4 5 6 Datahantering innebär hantering av ett forskningsprojekts material och startar redan i samband med projektplaneringen. Datahantering pågår under hela forskningsmaterialets livscykel och i processen ingår moment som insamling, dokumentation, bearbetning, lagring, arkivering och tillgängliggörande. 1
Informationsbroschyren har arbetats fram i syfte att ge råd till forskare om hur forskningsmaterial kan hanteras, organiseras och struktureras under forskningsprocessen. Innehållet har fokus mot forskning inom medicin och hälsa men kan även vara användbart inom andra forskningsområden, framför allt där forskningsdata baseras på surveyundersökningar. Svensk Nationell Datatjänst, SND Göteborgs universitet 2015-08-20 Version 7 Nedladdningsbar PDF: snd.gu.se/sv/om-oss/informationsmaterial 2
INNEHÅLLSFÖRTECKNING Steg 1 Projektansökan 4 Figur 1 Vad en datahanteringsplan bör innehålla 5 Steg 2 Projektstart 6 Figur 2 Dokumentation under forskningsprojektet 7 Steg 3 Datainsamlingsfasen 8 Figur 3 Exempel på variabellista 9 Steg 4 Dataanalysfasen 10 Figur 4 Mappstruktur för en publikation 11 Steg 5 Färdigställ och lagra data 12 Figur 5 Personuppgifter i forskningsmaterial 13 Steg 6 Tillgängliggöra data 14 Referenser 15 3
1 PROJEKTANSÖKAN För många forskare ingår ansökningar om forskningsbidrag i de centrala arbetsuppgifterna. Något som kan bli ett krav i samband med ansökan är att den ska innehålla en relativt detaljerad beskrivning av hur data kommer att samlas in och hanteras under forskningsprojektets gång, en så kallad datahanteringsplan. För en forskare utgör datahanteringsplanen ett effektivt sätt att redan i ett tidigt skede av projektet tänka igenom upplägg, insamling och hantering av forskningsmaterialet. Planen kan även bidra till en strukturerad hantering av materialet under projektets gång och på längre sikt. Eftersom projektet i detta skede ännu inte är igång innehåller datahanteringsplanen information om hur man planerar att hantera data. Om forskningsbidrag beviljas och projektet således ska starta behöver beskrivning om datahantering uppdateras kontinuerligt under den tid projektet pågår. Datahanteringsplanen är således ett dynamiskt dokument som utvecklas och uppdateras i takt med att projektet kommer igång. Den inleds med en beskrivning av forskningsprojektets syfte samt vilka organisationer och vilken personal som involveras. I planen ska också projektets forskningsmaterial beskrivas samt hur det ska samlas in, lagras och göras tillgängligt för andra. I figur 1 finns en översikt på vad en datahanteringsplan bör innehålla. Flera av dessa punkter beskrivs mer ingående under senare steg. 4
FIGUR 1 Vad en datahanteringsplan bör innehålla Beskrivning av projekt och datainsamling Kort beskrivning av syftet med projektet samt det material som ska användas. Om nytt material ska samlas in anges hur det ska ske, när det ska ske (tidsperiod) och vem/vilka som ansvarar för insamlingen. Dokumentation av materialet För att kunna förstå och återanvända forskningsmaterial är det viktigt med dokumentation. Ange kortfattat hur planeringen ser ut gällande dokumentation av materialet under insamlings- och bearbetningsfasen, men även vem som ansvarar för dokumentation och hur olika versioner av data ska namnges. Juridiska och forskningsetiska aspekter Ange aspekter som är viktiga att ta ställning till innan projektet sätter igång, under den period forsknings-projektet pågår, samt sådana som är viktiga för att projektet ska kunna avslutas korrekt. Korttidslagring och hantering Redogör för hur forskningsmaterialet kommer att hanteras under projekttiden vad gäller lagring, säkerhetskopiering, skydd från intrång/obehöriga användare. Det är även bra att redogöra vilka filformat som ska användas. Långtidslagring och hantering Beskriv hur och var data kommer att lagras på lång sikt och vilka filformat som ska användas. Långtidslagring av forskningsmaterial styrs av Arkivlagen (SFS 1990:782). Tillgängliggörande Om data kan göras tillgänglig för andra forskare ange när, var och för vem datamaterialet ska göras tillgängligt, samt även om hela eller endast delar av forskningsmaterialet kan tillgängliggöras. Kostnader Uppskatta kostnader för hantering av data under projektets gång avseende exempelvis inköp av mjuk- och/eller hårdvara, dokumentation och korttidslagring av forskningsmaterialet, samt även kostnader för att förbereda projektet för arkivering och tillgängliggörande. 5
2 PROJEKTSTART När projektets finansiering är klar och det befinner sig i sitt startskede är det dags att börja följa den planerade hanteringen av data och dokumentation. Den redan utformade datahanteringsplanen anger hur detta är tänkt, men den kan kompletteras med ytterligare information som ska implementeras under projektets gång. Metadata syftar på den information som beskriver ett objekt, det vill säga data om data. Metadata beskriver innehållet i forskningsmaterialet och gör det lättare att förstå dess egenskaper och metodik. Idag såväl som i framtiden är metadata en viktig källa för information kring forskningsmaterialet. En variabellista, som beskriver alla variabler i ett dataset och hur dessa är kodade, är ett exempel på metadata. Dokumentation är väsentligt under hela forskningsprocessen och sker i olika steg och på olika nivåer. Att komma igång med dokumentation i början av projektet kan kosta lite extra tid, men det är resurser som sparas in längre fram. För att underlätta dokumentationsarbetet är det bra att skapa en tydlig struktur över vilka dokument som ska användas och vad de avser att innehålla. En del av dokumenten i ett forskningsprojekt är sådana som berör hela forskargruppen, medan andra skapas och används för specifika delprojekt eller publikationer. I figur 2 finns tips på hur forskningsprojektets dokumentation kan struktureras när det gäller dokument och innehåll. 6
FIGUR 2 Dokumentation under forskningsprojektet 1 Forskningsgruppens gemensamma insamlingsprojekt Projektplan/forskningsplan Beskrivning av projektet, såsom titel, syfte, frågeställningar, metod, etik, tidsplan, planerade analyser, projektmedarbetare och deras behörighet. Projektloggbok Löpande dokumentation om sådant som sker under projektets gång. Exempelvis tidsperioder för utsända enkäter/undersökningar, datum för inkomna registerdata, viktiga korrespondenser, frågeställningar och problem som uppstår under datainsamlingen. Variabellista Varje dataset som insamlingen genererar bör ha en variabellista eller kodbok med beskrivning om variablerna och hur de är kodade. 2 Delprojekt/Publikation Analysplan Analysplanen är ett centralt dokument som innehåller all viktig information om projektet. Förutom uppgifter som t.ex. syfte, insamlings-metod, studiepopulation och kontaktuppgifter till medförfattare anges även sådant som sker under analysens gång, som exempelvis de variabler som används, analyser som görs och var resultaten kan hittas. Analysplanen knyter ihop de vetenskapliga tankegångarna med filer och resultat. Analysloggbok Loggboken fungerar som en översikt över dataflödet. I den anges och beskrivs de filer som skapas under analysens gång samt även var dessa sparas (exempelvis nya dataset och statistiska filer med koder/syntaxer från analyser som utförs). Variabellista I variabellistan eller kodboken beskrivs variablerna i det aktuella datasetet, som analysen utgår ifrån, och hur dessa är kodade. 7
3 DATAINSAMLINGSFASEN Datainsamlingen är en central del av forskningsprocessen. I denna fas är det bland annat viktigt att tänka på hur insamlingen ska organiseras, hur data som samlas in lagras säkert samt hur de ska struktureras. Det egna lärosätet har ofta utarbetat riktlinjer gällande datasäkerhet, utifrån klassificering av information. Det innebär att det finns regler om hantering av data på stationära datorer, bärbara media och i molntjänster. I de fall personuppgifter hanteras i forskningsprojektet måste särskilda åtgärder vidtas så att de inte riskerar att bli felaktiga eller oavsiktligt sprids. Att spara data med personuppgifter i en molntjänst är till exempel inte att rekommendera då det ställer höga krav på den personuppgiftsansvarige att kontrollera så att behandlingen av uppgifterna uppfyller de krav som personuppgiftslagen ställer. Samlas personuppgifter in ska alltid en anmälan till lärosätets personuppgiftsombud göras. För att enklare hantera den mängd data som insamlingen genererar och för att undvika tidskrävande arbete i efterhand är det betydelsefullt med tydlig struktur av hur data och material ska organiseras och namnges. Då filer snabbt blir många till antalet är det en bra idé att skapa ett system för namngivning av filer, som kan följas genom hela projektet. Tänk även på att namnge variabler på ett systematiskt sätt, med korta men beskrivande namn. Om frågeformulär används för datainsamling är det en bra idé att frågenumret får ingå i variabelnamnet. Ytterligare beskrivning av variabler och dess värden anges om möjligt i det statistikprogram som används, och/eller i en variabellista. I figur 3 finns exempel på variabellista. Tänk också på att förvara den första datafilen, dvs. originalfilen, skyddad så att den inte riskerar att skrivas över. 8
FIGUR 3 Exempel på variabellista Variabellista Variabelnamn Beskrivning Kodning F1_Kon F.1 Är du man eller kvinna 1=Kvinna 2=Man 999=Uppgift saknas 998=Dubbelmarkering F3_Halsa F.3 Allmänt hälsotillstånd 1=Utmärkt 2=Mycket gott 3=Gott 4=Någorlunda 5=Dåligt 999=Uppgift saknas 998=Dubbelmarkering F3_Halsa_diko P_Glukos P_Glukos_3g F.3 Allmänt hälsotillstånd dikotomiserat där Utmärkt/ Mycket gott/gott = Gott hälsotillstånd (1) Någorlunda/Dåligt = Dåligt hälsotillstånd (2) Mätvärde: Blodprov: P-Glukos (mmol/l). Kontinuerliga värden. Lägsta värdet i datamaterialet är 3,1 och högsta värdet är 12,7. Mätvärde: Blodprov: P-Glukos (mmol/l). Indelad i tre grupper 1=Gott hälsotillstånd 2=Dåligt hälsotillstånd 999=Uppgift saknas 998=Dubbelmarkering 3,1 3,2 3,3..osv 12,7 999=Uppgift saknas 1= 6,0 mmol/l 2=6,1 6,9 mmol/l 3= 7 mmol/l 999=Uppgift saknas 9
4 DATAANALYSFASEN I samband med analys av data kommer många versioner av dataset att skapas. Den första versionen är oftast resultatet från datainsamlingen, sedan följer ett antal nya versioner med rättad data och tillägg av konstruerade variabler. När analysarbetet fortskrider och data bearbetas på olika sätt är det viktigt att dokumentera alla de ändringar och tillägg som görs, för att kunna se vad som skiljer olika versioner. Ange varje ny sparad version med nytt versionsnummer och gärna datum när filen skapades. Alla relevanta filer bör säkerhetskopieras regelbundet, gärna mer än en gång per dag. Inom klinisk forskning och epidemiologi är det vanligt att forskaren utgår från en skrivskyddad datafil och analyserar data med hjälp av statistiskt program där programkoder/kommandon kan anges. Koderna (eller analyssyntaxen) sparas sedan i en fil som utgör en dokumentation över utförda analyser, och kan användas i efterhand för att återskapa dem. Om analyser utförs på annat sätt än via programkoder är det viktigt att dokumentera hur man gått tillväga. Även om forskare inom en forskargrupp analyserar olika delmängder av data är det lämpligt att alla analyser utgår från en gemensam version, som lagras skrivskyddad och med begränsad åtkomst. Det blir då enklare att ha kontroll över vilken version som är i bruk och det blir även smidigare när forskningsmaterialet senare ska förberedas för arkivering och eventuellt göras tillgängligt för sekundäranalyser. En bra mappstruktur hjälper till att hålla ordning bland alla de filer som skapas under projektets gång och är ett sätt att systematisera materialet. Mappstrukturen bör vara logisk och strukturerad. I figur 4 finns exempel på hur en mappstruktur kan se ut inför publikation av artikel. 10
FIGUR 4 Mappstruktur för en publikation Huvudprojekt Huvudmapp för publikation (t.ex. titel) Dokument Data Program Resultat Ansökan om forskningsmedel Etikansökan Analysplan Analysloggbok Variabellista Manusversioner etc. Dataset Bearbetade datafiler Frågeformulär samt annan viktig information relaterad till datainsamlingen/ registerdata/ labbanalyser etc. Filer från statistikprogram som leder fram till forskningsresultat i den statistiska analysen Resultat från programfiler, figurer, tabeller, grafer etc. README En textfil med övergripande information om projektet och beskrivning av mappstrukturen kan underlätta för läsaren att få en överblick och kunna orientera sig i materialet. 11
5 FÄRDIGSTÄLLA OCH LAGRA DATA I forskningsprojektets slutskede behöver data förberedas för långtidslagring. Om de ska vara tillgängliga för vidare forskning efter projektets slut behöver även detta förberedas. Långtidslagring innebär att man sparar filer i ett format som är förberett för att vara läsbart i framtiden och som inte kräver någon särskild hårdvara eller mjukvara. Långtidslagring av forskningsmaterial styrs av Arkivlagen (1990:782). Forskningsmaterial kan innehålla känsliga personuppgifter som kan bli föremål för sekretess, i syfte att skydda människors integritet. Innan materialet tillgängliggörs är det därför viktigt att åter kontrollera om juridiska och etiska restriktioner gäller för det specifika materialet. En personuppgift är all slags information som direkt eller indirekt kan hänföras till en fysisk person som är i livet. Det innebär att uppgifter som direkt kan knytas till ett namn eller personnummer alltid är personuppgifter, men det gäller även uppgifter som indirekt gör det möjligt att identifiera en individ. Exemelvis kan flera uppgifter i kombination med varandra möjliggöra identifiering av en individ. Personuppgiftslagen (PuL, 1998:204) syftar till att skydda människor från att deras personliga integritet kränks vid behandling av de egna personuppgifterna, och reglerar om och hur personuppgifter får användas för forskningsändamål. Enligt PuL får personuppgifter bara behandlas för särskilda, uttryckligt angivna och berättigade ändamål. För att behandla känsliga personuppgifter, dvs. uppgifter om ras eller etniskt ursprung, politiska åsikter, religiös eller filosofisk övertygelse, medlemskap i fackförening och uppgifter som rör hälsa och sexualliv, krävs godkänd etikprövning och uttryckligt samtycke från den registrerade. I figur 5 finns några begrepp som är viktiga att ha koll på avseende personuppgifter i forskningsmaterial. 12
FIGUR 5 Personuppgifter i forskningsmaterial Kodade och krypterade uppgifter Uppgifter som är kodade eller krypterade är personuppgifter, så länge kod- eller krypteringsnyckel existerar, dvs. så länge som det är möjligt att identifiera personen bakom koden. Personuppgiftslagen gäller således för data som är kodade eller krypterade. Avidentifierade data För att avidentifiera personuppgifter måste alla möjligheter för identifiering tas bort, så att uppgifter i data inte längre går att koppla till en fysisk person som är i livet. Detta innebär att kodoch krypteringsnyckel måste förstöras och att bakvägsidentifiering inte ska vara möjlig. Data som är avidentifierad omfattas inte av Personuppgiftslagen. Anonymiserade data Ibland används termen anonymisering som synonym till avidentifiering, vilket är felaktigt. För anonymiserade data är forskningspresonerna anonyma för den som behandlar uppgifterna, men möjligheten att koppla uppgifter till enskilda individer kvarstår vilket innebär att Personuppgiftslagen gäller. Bakvägsidentifiering/Röjanderisk Det är viktigt att kontrollera om data som ska tillgängliggöras innehåller information som kan innebära röjanderisk för de individer som deltagit i studien. Uppgifter som direkt pekar på en peson är exempelvis personnummer, telefonnummer eller adress. Uppgifter som indirekt kan identifiera en person är sådana som i kombination med varandra kan möjliggöra bakvägsidentifiering, vilket kan vara uppgift om yrke, kommun och ålder. Det finns olika sätt att göra sådana uppgifter mindre känsliga, exemelvis genom att koda om så att kommun och inkomst anges i mer generella indelningar. Indirekta identifierare är väldigt specifika för det enskilda projektet, då möjligheten för bakvägsidentifiering beror på vilka data som samlats in. På snd.gu.se, datainspektionen.se och codex.vr.se finns mer detaljerade redogöralser kring juridiska och forskningsetiska aspekter. 13
6 TILLGÄNGLIGGÖRA DATA När projektet är slut är det dags att arkivera forskningsmaterialet och eventuellt tillgängliggöra materialet för andra. Handlingar från ett forskningsprojekt som bedrivs vid en myndighet är i allmänhet offentliga och ska arkiveras enligt arkivlagen, arkivförordningen och offentlighets- och sekretesslagen. Arkiveras ska såväl rådatafiler och etiktillstånd, som forskningsdokumentation och publicerade resultat. Återanvändning av forskningsmaterial från projektet kan bli aktuellt långt efter projektets slut, t.ex. för att andra ska kunna kontrollera publicerade resultat eller om det uppstår anklagelse om vetenskaplig oredlighet. Forskningsdata är en värdefull resurs som vanligtvis kräver mycket tid och pengar att producera. Redan insamlad data kan därför komma att användas för sekundäranalys. I allt större utsträckning följer forskningsfinansiärerna OECD:s riktlinjer om att offentligt finansierade forskningsdata så långt som möjligt bör vara öppet tillgängliga för forskarsamhället. Data som tillgängliggörs kan bli synliga, sökbara, återanvända och citerade. SND dokumenterar forskningsmaterial för att säkerställa långtidsbevarande, tillgängliggörande och återanvändning. Mer information om hur metadata och data kan överlämnas till SND finns att läsa på www.snd.gu.se 14
Har du frågor om datahantering, önskar beskriva eller överlämna data till SND? Välkommen att besöka vår webbplats eller kontakta oss för mer information! Ämnesområde Humaniora Medicin och hälsa Samhällsvetenskap E-post team-hum@snd.gu.se team-med@snd.gu.se team-sam@snd.gu.se Referenser: DCC. (2013) Checklist for a Data Management Plan. v.4.0 Edinburgh: Digital Curation Centre. Tillgänglig online: http://www.dcc.ac.uk/resources/data-management-plans Eloranta S, Johansson AL, Kristinsson SY, Andersson TM. (2013). Att strukturera och dokumentera forskningsprojekt. Läkartidningen 110(8): 416-9. Inter-university Consortium for Political and Social Research (ICPSR). (2012). Guide to Social Science Data Preparation and Archiving: Best Practice Throughout the Data Life Cycle (5th ed.) Ann Arbor, MI. Tillgänglig online: http://www.icpsr.umich.edu/files/icpsr/access/dataprep.pdf 15
Vetenskapsrådet har inrättat SND som en av flera nationella infrastrukturer för forskningsdata. Den myndighet som förvaltar uppdraget är Göteborgs universitet. TILLGÄNGLIGA SYNLIGA CITERBARA snd.gu.se E-post: snd@gu.se Besöksadress: Bohusgatan 15 Box 330 SE-405 30 Göteborg 16