VÄLKOMNA Doktorandnätverksträff 2014-11-10 Tema: Datahantering
Svensk Nationell Datatjänst (SND) En infrastruktur för forskningsdata inom samhällsvetenskap, humaniora och medicin
Bakgrund och organisation Etablerat 1:a januari 2008 av Vetenskapsrådet Bedrivs vid Göteborgs universitet Del av svensk forskningsinfrastruktur Finansierat av Vetenskapsrådet och Göteborgs Universitet Nationell resurs för samordning av existerande och nya forskningsdatabaser inom Samhällsvetenskap, Humaniora & Medicin Svensk nod i ett internationellt samarbete mellan dataarkiv 31 anställda Ursprung i SSD (Svensk Samhällsvetenskaplig Datatjänst) Mer än 30 års erfarenhet av att dokumentera, kvalitetssäkra, förmedla och uppdatera digitaliserat datamaterial.
SND:s uppdrag Att vara en nationell resurs för samordning av existerande och nya forskningsdatabaser inom samhällsvetenskap, humaniora och medicin Att erbjuda stöd för svensk forskning genom att underlätta och utveckla forskares tillgång till data inom och utom landet Att erbjuda stöd för forskning under hela forskningsprocessen
Presentation av deltagare
Tre frågor: Vem är du? Ämne? Typ av data?
BLOCK 1 Datahantering, datahanteringsplan Beskrivning av forskningsprojektet Insamling/produktion av data Juridik och etik Budget Ulf Jakobsson Datasamordnare Humaniora
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Datahantering Hur du hanterar, organiserar och strukturerar ditt forskningsmaterial under hela forskningsprocessen. Datahantering handlar om hantering av ett forskningsprojekts datamaterial och startar redan i samband med projektplaneringen. Datahantering pågår under hela materialets livscykel och i processen ingår moment som insamling, dokumentation, bearbetning, lagring och arkivering.
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Datahanteringsplan Vad är det? Ett formellt dokument som skapas i början av forskningsprojektet, och som fungerar som ett ramverk för vad som sker såväl under som efter forskningsprojektet.
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Datahanteringsplan Varför? Skapar överblick för planeringen i projektet Säkerställer att datamaterialet är i rätt format, väl strukturerat och dokumenterat Skapar kontroll över projektets material Ökar forskarens effektivitet Underlättar vid samarbeten och när nya medlemmar ingår i forskargrupp
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Datahanteringsplan Innehåll i korthet Beskrivning av projektet Juridiska & etiska aspekter Dokumentation, metadatastandarder, format, filnamn Korttidslagring Långtidsbevaring och tillgängliggörande Kostnader
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Beskrivning av forskningsprojektet Syfte med forskningen Projektmedarbetare Ansvar för att DHP följs
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Insamling/produktion av data Beskrivning av data typ, omfattning, format på data hur data skall samlas in när och var Hur insamling av data ska ske (tillvägagångssätt, tidsperioder, var, ansvarsfördelning) Befintligt material Ursprunget på data Återskapa data
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Juridik och etik Det finns Juridiska och etiska aspekter som är viktiga att ta ställning till innan projektet sätter igång, under den period forskningsprojektet pågår, samt sådana som är viktiga för att projektet ska kunna avslutas korrekt.
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Juridik och etik: frågeställningar Intellektuella rättigheter eller copyrightfrågor Konfidentiell information Personuppgifter (definition?) Sekretessbelagd data Restriktioner Åtkomstpolicyer Embargo
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Juridik och etik: inför uppstart Kommer materialet att innefatta personuppgifter? Hur ska dessa hanteras? Lärosätets informationsklassning för lämplig skyddsnivå (Konfidentialitet, riktighet, tillgänglighet) Etikprövning Informerat samtycke? Huvudman (universitet/sjukhus/annat?) Vem i projektet skall ha tillgång till data? Restriktioner?
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Juridik och etik: under projekt Informationssäkerhet Vem ska ha tillgång Backup Datasystem Hantering av bland annat personuppgifter
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Juridik och etik: inför avslut Arkivering av materialet vad står i Arkivlagen? Embargo Restriktioner Personuppgifter Åtkomstpolicyer Upphovsrätt..intellektuella rättigheter eller copyrightfrågor
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Budget Budgetera kostnader redan i ansökan Personalkostnader Databearbetning Datahantering Dokumentation Lagring
Block 1: Datahantering, Datahanteringsplan, Beskrivning av forskningsprojektet, Insamling/produktion av data, Juridik & etik, Budget Budget forts. Nödvändig hårdvara och mjukvara Datahantering System för backup Säkerhet Dokumentation Lagring Eventuella kostnader för att möjliggöra deponering av data till ett arkiv
BLOCK 2 Dokumentation Metadatastandarder Filformat Namnkonventioner Caspar Jordan Datasamordnare Humaniora
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Dokumentation varför? Dokumentation = metadata? Ofta enda kommunikationen mellan primärforskare och sekundärforskare Bidrar till: Begriplighet Hanterbarhet Tillgänglighet Användbarhet
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Dokumentation vem? Enskild doktorand: du själv! I ett större projekt: välj ut en eller flera ansvariga, med tydlig ansvarsfördelning.
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Dokumentation vad? Allt av värde Grundläggande Titel Skapare Tidpunkt Beroende av projekt Variabelbeskrivningar, måttenheter Föräldrars dialekt, yrke, ålder Mikrofon, inställningar, upplösning Filtyper, metodologi, analytiska beslut
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Dokumentation hur? Loggböcker (papper eller elektroniska) Kalkylblad Analytisk mjukvara Fördelen med verktyg som är gjorda för datahantering är att de ofta (men inte alltid!) följer en metadatastandard.
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Metadatastandarder vad är det? och varför är det bra? Strukturerat Standardiserat Jämförbart Maskinhanterbart Program, hemsida, för hand Kan sparas/exporteras på olika sätt XML, databas, annat
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Metadatastandarder vad är det? DC väldigt grundläggande DDI från början samhällsvetenskaplig inriktning CMDI språkvetenskaplig inriktning Exempelvis DC/XML: <dc:creator> August Strindberg </dc:creator> <dc:title> Röda rummet </dc:title> <dc:language> sv </dc:language> <dc:publisher> Joseph Seligmann </dc:publisher> <dc:date> 1879 </dc:date> <dc:description> En roman om några tämligen vansinniga bohemer i Stockholm. </dc:description>
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Metadatastandarder i DHP Ta reda på vilken metadatastandard som passar ditt projekt. Finns det verktyg/mjukvara? Täcker den all viktig information? Behöver jag använda flera olika standarder? Är de i så fall kompatibla?
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Filformat För det mesta finns flera format att välja på för ett visst ändamål. Informera sig För- och nackdelar Ändamålsenligt? Proprietärt? Öppet? Hållbart? Om inte: går det att konvertera?
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Filformat, några exempel Olika sätt att koda: Textfiler: ASCII, ISO 8859-1, Windows-1250, Mac OS Roman, UTF- 8, Shift JIS Ljudfiler: WAV/LPCM okomprimerat, men komprimerade WAV-filer förekommer också. Välj format tidigt skriv ned valet i DHP
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Namnkonventioner System för hur filer ska namnges Ju fler filer i ett projekt desto viktigare med bra namnkonventioner Tänk noga ut systemet, dokumentera det i datahanteringsplanen och följ det Dokumentera förändringar (när och varför?)
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Namnkonventioner Undvik: Väldigt långa namn Obegripliga namn GB048933.html Relativa identifierare Index.doc Flera filer som heter samma sak Lita inte på mappstrukturen!
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Namnkonventioner Kombinera En nyckel = unikt ID En semantisk del = begripligt innehåll GUT118_Intervju_Per.wav Mappstruktur för att enklare hitta filen > BLOCK 3.
Block 2: Dokumentation, Metadatastandarder, Filformat, Namnkonventioner Frågor att besvara i datahanteringsplanen Vilka metadata ska dokumenteras under projektets olika skeden? Hur ska de dokumenteras? Papper, kalkylblad, dokumentationssystem? Enligt någon särskild metadatastandard? Vem ska dokumentera? Vilka filformat ska användas? Hur ska de kodas? Ska det konverteras? Vem gör det? Hur ska filerna namnges?
DOKUMENTATIONSVERKTYG
Papper och penna
Textfil
Nesstar Publisher
Colectica for Excel
NVivo, Transana och liknande CAQDAS Uppmärkning av: Text Bild Ljud Video Anteckningsfunktioner för metadata Export av anteckningar
www.dublincoregenerator.com
BLOCK 3 Kortidslagring, datahantering Ulf Jakobsson Datasamordnare Humaniora
Block 3: Korttidslagring och hantering av data, Informationssäkerhet, Datahantering, Mappstruktur, Versionering Korttidslagring och hantering av data Det är av stor betydelse att fundera igenom och dokumentera hur forskningsmaterialet ska hanteras under den tid projektet pågår. Informationssäkerhet Datahantering Struktur Versionering
Block 3: Korttidslagring och hantering av data, Informationssäkerhet, Datahantering, Mappstruktur, Versionering Informationssäkerhet Att skydda informationen från olika hot Nödvändiga anpassningar Tekniska miljöer Fysiska miljöer Administrativa miljöer Förhindra obehörig insyn Förhindra att informationen förvanskas OBS! Riktlinjer finns vid lärosätet!
Block 3: Korttidslagring och hantering av data, Informationssäkerhet, Datahantering, Mappstruktur, Versionering Datahantering Säkerhet och skydd Lokal lagring Backuprutiner Säkerhetskopiering Filformat Verktyg och mjukvara
Block 3: Korttidslagring och hantering av data, Informationssäkerhet, Datahantering, Mappstruktur, Versionering Datahantering, fortsättning Säkerhet och skydd av datamaterialet Skydd från intrång/obehöriga användare Behörighet Loggar Gallring av forskningshandlingar Ansvar för datahanteringsplan
Block 3: Korttidslagring och hantering av data, Informationssäkerhet, Datahantering, Mappstruktur, Versionering Mappstruktur En genomtänkt mappstruktur är grundförutsättningen för ett välorganiserat forskningsmaterial. Namn Organisering av filer Versionering av filer Studie 1 Dokument Databas Databas Original Databas version 1 Databas version 1.0 Databas version 1.1 Databas version 2 Databas version 2.0
Block 3: Korttidslagring och hantering av data, Informationssäkerhet, Datahantering, Mappstruktur, Versionering Exempel på en mappstruktur Mappnamnet kan kombineras med t.ex. årtal för en undersökning. Gäller framförallt för rullande enkäter osv. Ex. SND 0577-001_1976 SND 2000 SND 2000-001 SND 2000-001-orig Allt från forskare (datafiler, dokumentation mm) Arkivformat av konverterade filer Ev. konverterade/uppdaterade filformat (beror på filformat från forskare) SND 2000-001-v1_0 Datafiler (ev. samma namn som mappen men med ev tillägg för språk osv) Dokumentation (Nesstarfil/kodbok etc) Ev. andra dokument som enbart gäller datasetet Arkivformat av versionen av datasetet SND 2000-001-v1_1 Datafiler (ev. samma namn som mappen men med ev tillägg för språk osv) Dokumentation (Nesstarfil/kodbok etc) Ev. andra dokument som enbart gäller datasetet Arkivformat av versionen av datasetet Ligger till grund för Ligger till grund för SND 2000-002 SND 2000-002-orig SND 2000-002-v1_0 Frågeformulär Ev. andra dokument som gäller hela studien och som inte ändras. Eller så skall dessa ligga i varje mapp för varje dataset så att man inte missar dem vid överföring till förmedlingsmapp. Se varje ruta som en mapp med dess innehåll.
Block 3: Korttidslagring och hantering av data, Informationssäkerhet, Datahantering, Mappstruktur, Versionering Versionering Att versionera är ett sätt att hålla koll på vilken fil som är vilken! Versionskontroll Versioner av data Vilken nivå? Stor versionsförändring Liten versionsförändring
BLOCK 4 Långtidslagring & tillgängliggörande Björn Sjögren Datasamordnare Samhällsvetenskap
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Långtidslagring och tillgängliggörande kan betraktas som forskningsprojektets sista steg. Datahanteringsplanen ska täcka in även dessa aspekter. Projektet slutar alltså inte efter dataanalys och publicering! Långtidslagring Tillgängliggörande Tillgängliggöra forskningsdata och material vid SND
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Handlingar från ett forskningsprojekt som bedrivs vid en myndighet är i regel allmänna handlingar. Rådatafiler, dokumentation, resultat, etiktillstånd mm. Allmänna handlingar ska arkiveras i enlighet med bestämmelser i arkivlagen, arkivförordningen och offentlighets- och sekretesslagen.
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Varje lärosätes ansvar Myndigheternas arkiv skall bevaras, hållas ordnade och vårdas så att de tillgodoser [ ] forskningens behov (ArkivL 3) Arkivlagen Forskningsmaterial ska som regel bevaras Gallring = undantag
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Gallring skall alltid undantas (RA-FS 1999:1) handlingar som innehåller grundläggande uppgifter om syfte, metod och resultat i resp. forskningsprojekt [ ] handlingar som speglar projektets kontext avseende t.ex. ekonomiska förutsättningar och externa kontakter samt visar eventuella förändringar i inriktning under arbetets gång. (6 ) sådana handlingar [ ] som bedöms ha ett fortsatt inomvetenskapligt värde eller värde för annat forskningsområde, som bedöms vara av stort vetenskapshistoriskt, kulturhistoriskt eller personhistoriskt värde, eller som bedöms vara av stort allmänt intresse. (7 )
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Långtidslagring innebär att man sparar filer i ett format som är förberett för att vara läsbart en kommande tid och som inte kräver någon specifik hårdvara eller mjukvara. Arbeta med kopior av originalfiler Även metadata behöver långtidslagras Förvaltas aktivt över tid (migrering)
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Vetenskapsrådet ska under 2014 ta fram nationella riktlinjer för öppen tillgång till vetenskaplig information. Riktlinjernas grundprinciper: Forskningsdata som ligger till grund för vetenskapliga publikationer, samt vetenskapliga publikationer och konstnärliga verk, som är resultatet av offentligt finansierad forskning, ska vara öppet tillgängliga. Data och metadata
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Skäl för tillgängliggörande: Demokrati och transparens Forskning Innovation och användning utanför forskningen Citering
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Demokrati och transparens Offentligt bekostad forskning bör vara fritt tillgänglig Värdefull och dyrbar resurs Alla medborgares rätt till kontroll
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Forskning Återanvändning av forskningsmaterial/sekundäranalys Duplicering undviks Nya samarbeten mellan universitet, forskargrupper och forskningsområden Utvecklande av vetenskaplig metod och analys
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Innovation och användning utanför forskningen
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Citering Referens till primärforskare Ökar antalet citeringar Meriterande för forskare att tillgängliggöra
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Citeringen rekommenderas att innehålla: Primärforskare/organisation Titel År Version Dataarkiv/förmedlare Permanent identifierare (Persistent Identifier [PID]) T ex Digital Object Identifier (DOI), Archival Resource Keys (ARKs), Persistent Uniform Resource Locators (PURLs), m fl Palm, Lennart. (2013). Sockenvis jordbruksstatistik för 1570. Version 1.0. Svensk nationell datatjänst. doi:10.5878/001684.
Block 4: Långtidslagring & tillgängliggörande Långtidslagring och tillgängliggörande Begränsning av tillgängliggörande? Juridiska och etiska skäl Data som omfattas av sekretess Tillgängliggöra delar av datamaterial (omkoda/ta bort variabler, tillgängliggöra enbart metadata) Kommersiella skäl Embargo
Frågor att beakta i datahanteringsplanen: Block 4 Hur och var kommer data att lagras på lång sikt? Vilket/vilka filformat ska användas för långtidslagringen? Vilket material kan gallras? Om tillgängliggörande är möjligt, var kommer datamaterialet att göras tillgängligt? förmedling via egen hemsida eller det egna universitetet deponering hos en ämnesspecifik databas deponering hos dataarkiv Kommer hela eller delar av forskningsmaterialet att tillgängliggöras? Varför kan eventuellt hela eller delar av forskningsmaterialet inte göras tillgängligt? Juridiska och etiska restriktioner För vem kommer data finnas tillgängligt? När kommer tillgängliggörande att ske?
Tillgängliggöra forskningsdata och material vid SND Malin Lundgren Datasamordnare Medicin
Tillgängliggöra data och metadata vid SND Uppdrag från Vetenskapsrådet att tillgängliggöra forskningsdata och material inom humaniora, medicin & hälsa och samhällsvetenskap. Data får leva vidare: från primärforskning till sekundärforskning Hantering av data vid SND Samarbete med forskaren Tillgänglighetsnivåer
Data som deponeras vid SND kvalitetssäkras långtidsbevaras dokumenteras och sammanställs enligt den internationella standarden DDI (Data Documentation Initiative) synliggörs, både nationellt och internationellt
Data som deponeras vid SND får en permanent identifierare DOI (Digital Object Identifier) tillgängliggörs förmedlas och återanvänds I vissa fall kan data inte tillgängliggöras, tex om data innefattar personuppgifter. SND kan då beskriva data och forskningsmaterial i webbkatalogen, som blir synligt och sökbart.
Kodbok med metadata Variabelnamn och beskrivning Frågeområde (enligt formulär) Fråga (enligt formulär) E1_Kon: E1 F.1 Kön Variabelgrupp A. Bakgrund, utbildning och ekonomi Frågetext Är du man eller kvinna? Värde Etikett Fall Procentandel 1 Man 3040 39,2 % 2 Kvinna 4711 60,8 % 999 Uppgift saknas 84 Kodning av data
Webbformulär Via SND:s webbformulär kan forskningsdata och materialet beskrivas. Filer kan dessutom laddas upp direkt i formuläret.
SND hanterar data på uppdrag av forskaren SND upprättar ett avtal med forskare om deponering och tillgängliggörande av forskningsmaterialet. Forskningshuvudmannen behåller den fulla äganderätten, SND tar emot en kopia av materialet. Bearbetning av data utförs endast på uppdrag av forskaren. Återkoppling till forskaren samt fortsatt kontakt.
Tillgänglighetsnivå på data som lämnas till SND 1 Data kan tillgängliggöras utan förestående kontakt mellan forskningshuvudman och SND 1 a Fritt tillgängligt utan registrering 1 b Fritt tillgängligt via beställning eller Open Data 1 c Fritt tillgängligt via beställning 2 Data kan tillgängliggöras under förutsättning att forskningshuvudman kontaktas vid angivna tillfällen/alltid 2 a Kräver primärforskarens tillstånd vid angivna tillfällen 2 b Kräver alltid primärforskarens tillstånd 3 Gäller studier där forskningsmaterialet bara beskrivs med metadata och inte deponeras hos SND. För dessa nivåer behövs inget avtal mellan forskare och SND 3 a Studien ej tillgänglig via SND. Kan laddas ner via extern hemsida 3 b Studien ej tillgänglig via SND. Kontakta kontaktpersonen för mer information
Statistik antal studier per tillgänglighetsnivå Antal Tillgänglighetsnivå 710 1. Fritt tillgänglig (1a, 1b, 1c) 244 2. Kräver huvudmannens tillstånd (2a, 2b) 101 3. Data ej tillgänglig via SND (3a, 3b) (Statistik per 2014-11-06)
Statistik antal studier per ämnesområde Antal Ämnesområde 516 Samhällsvetenskap 451 Humaniora 87 Medicin (Statistik per 2014-11-06)
Några goda skäl Om data tillgängliggörs i ett dataarkiv blir det långtidslagrat, beskrivet på ett sätt som möjliggör internationell sökbarhet, och försett med en permanent identifierare (DOI, Digital Object Identifier) som möjliggör citering av data. När data publiceras och tillgängliggörs på ett standardiserat sätt öppnas möjligheter för att datamaterialet kommer att refereras till korrekt.