Pass 2: Övning datahanteringsplaner I det här dokumentet kan du ta del av reflektioner från några medarbetare vid SND som tillsammans suttit och granskat datahanteringsplanerna. Utgångspunkten har varit att fundera kring upplägg och innehåll utifrån våra erfarenheter och SND:s checklista för DMP, utan att gå in i alla forskningsprojektens detaljer. Vi gör inte anspråk på att visa ett facit, utan punktar upp några av de reflektioner som kom upp i vår diskussion. SOLUS Smart Optical and Ultrasound Diagnostics of Breast Cancer Inledningsvis tyckte vi att planens struktur var något otydlig. Varje del inleds med en fetmarkerad text som sedan följs av ett antal punkter. Vi förstod först inte om den fetmarkerade texten var något som forskargruppen själva hade formulerat eller om texten var inklistrad från något annat ställe. Efter lite efterforskning i riktlinjerna från Horisont 2020 och DMP Online Tool (som det hänvisas till i början av dokumentet) såg vi att strukturen i planen följde upplägget i onlineverktyget. Eftersom målgruppen för datahanteringsplanen är finansiären (H2020) behövs kanske å andra sidan inte några ytterligare förklaringar av upplägget, för dem är det självklart hur planen är strukturerad. Från titeln förstår vi att den här datahanteringsplanen är framtagen i ett tidigt skede av forskningsprojektet, vilket också förklarar varför den inte är så detaljerad i alla hänseenden. I dokumentet hänvisas också till en nästkommande plan där saker ska specificeras. I relation till detta så funderade vi särskilt på: o Filnamn: i planen anges att man ska ta upp detta i en senare plan, men redan i början av ett forskningsprojekt skapas ofta många olika slags filer (även om det inte är direkta datafiler). Därför anser vi att det redan i detta skede hade varit bra med en plan för hur namnkonventioner för filer ska se ut. 1
o Versionering av datafiler: det nämns att de ska ha två olika versioner för rådata och analysdata. Förhoppningsvis beskrivs det mer detaljerat i nästa version av datahanteringsplanen. De anger att XML ska användas för att beskriva metadata. Vår reflektion kring detta är att det är klokt eftersom det främjar maskinläsbarhet och därmed upptäckbarhet och interoperabilitet. Som filformat anges bland annat DICOM. Vi googlade för att få reda på mer information om DICOM och det verkar vara både ett filformat och ett slags kommunikationsprotokoll. Utan att gå in i detaljer så verkar det vid en första anblick vara ett ganska bra sätt att beskriva den här typen av data. Befintliga data/datainsamling. Vi tycker inte att det är tydligt om projektet ska använda befintliga data eller om allt datamaterial ska samlas in. Man beskriver att något ska samlas in efter 24 månader, vilket låter ganska sent om man inte redan har något att börja jobba med från början. (Data Summary, punkt 4 & 5 svarar inte riktigt på detta.) Bra med översiktliga tabeller över filformat, filstorlekar och items. På sidan 2 specificeras hur data får återanvändas. Bra och tydligt med information om/hur data får användas för sekundäranalys. (Vi utgick från att dessa krav är anpassade efter hur samtycket är utformat och hur den aktuella lagstiftningen ser ut). Avsnitt 3.3: Här hade de kunnat förtydliga med några exempel över vilka vokabulärer det är de tänker på. På sidan 5 står det att data ska vara tillgängliga i 10 år. Vi hade velat veta mer kring tidsperspektivet, varför just 10 år? Är det Zenodo, forskargruppen eller institutionen som sätter begränsningar? Viktigt att tänka på att det är skillnad mellan att tillgängliggöra och långtidslagra, vilket blir tydligt här. 2
Delen om lagring och informationssäkerhet verkar vara väl genomtänkt. Det framgår inte tydligt vem man kan kontakta vid frågor om projektet, men den informationen kanske finns på projektets hemsida. Som metadata nämns uttryckligen bara nyckelord. Man säger dock att metadatafiler ska skapas och att de ska matcha språkbruket hos tidskrifter inom samma forskningsområde. Här hade man kanske önskat sig en lite bredare ansats. AMECRYS - Revolutionising Downstream Processing of Monoclonal Antibodies by Continuous Template- Assisted Membrane Crystallization Den här datahanteringsplanen avser också en första version av den plan som H2020 vill ha senast månad 6. Det var praktiskt med en lista med definitioner i början. I tabellen över dataset finns en kolumn för upphovsrättsinnehavare ( IPR Owner ). Vi undrar om man egentligen menar dataägare/huvudman. Men då vi inte har kunskap kring brittisk lagstiftning så är vi osäkra på den här punkten. Det beskrivs att information om varje dataset kommer att samlas i ett Excel-dokument. Det tyckte vi var ett bra sätt att skapa översikt av projektets alla dataset, eftersom det kommer skapas många. Däremot undrade vi hur man utifrån denna Excelfil kan hitta själva datafilen under projektets gång? Dataseten får en DOI först när de är deponerade till ett repositorium så under projekttiden behöver det finnas en struktur över var filer sparas. 3
I tabell 6.1.2 ges ett exempel på en beskrivning av ett dataset. Som framgår av Dataset Identifier är filen ett Excel-dokument (eftersom filnamnet slutar med.xlsx) men under Type Format anges tre olika filformat. Här tyckte vi att det var oklart om datasetet består av en eller flera filer. Vår uppfattning är att listan med metadata på sidan 13 verkar genomtänkt. Däremot är det en nackdel att informationen i dokumentet troligtvis inte kommer att bli direkt sökbar om man laddar upp den som ett textdokument i Zenodo. På flera ställen talas det om olika versioner av dataset, men det anges ingenstans hur versioneringssystemet ser ut. I sista stycket på sidan 14 skulle man kunna tro att det är upp till varje partner att själv bestämma versioneringssystem. Vår reflektion här är att denna lösning riskerar att skapa förvirring om man ska samarbeta mycket. Tydlig ansvarsfördelning kring datahantering, det gillar vi! Efter projektslut lämnas ansvaret för säker lagring över till Zenodo. Vi tycker att det är lite konstigt att inte avtala om en lagringstid, men förstår samtidigt att Zenodo hänger ihop med CERN som är en trovärdig partner. I Zenodos policy står det också en relativ lagringstid, for the lifetime of the repository. På SND tycker vi att man ska drömma större än så, men vi förstår också att förutsättningarna för detta inte alltid möjliggör sådan långsiktighet. Bra med en tydlig sammanställning av parternas policyer kring datahantering. Datainsamlingen beskrivs inte detaljerat, men det hänvisas till ett annat dokument där en sådan beskrivning troligtvis finns. Mappstrukturer beskrivs inte. Data kommer att ligga hos ett flertal olika parter och eventuellt kan det bli kaotiskt när/om man ska sammanföra data från olika aktörer. Det verkar som att det är tänkt att det mesta av datamaterialet ska sammanföras i ett gemensamt 4
Zenodo-repositorium, som då kommer att behöva ha en mapp- /filorganisationsstruktur som alla är överens om. Man får ändå intrycket av att projektdeltagarna har tänkt på interoperabilitet och troligtvis kommer mer detaljer om detta i en senare version av DMP:n. Referenser Leverabel 8.2 (D8.2): Data Management Plan från SOLUS - Smart Optical and Ultrasound Diagnostics of Breast Cancer: http://www.solus- project.eu/storage/app/media/d8.2%20- %20First%20release%20of%20the%20Data%20Management%20Plan.pdf Används i med tillstånd från projektet. Eftersom projektet befinner sig i sin första rapporteringsperiod har leverabeln ännu inte godkänts av EU-kommissionen. "This project has received funding from the European Union s Horizon 2020 research and innovation programme under grant agreement No 731877. The SOLUS project is an initiative of the Photonics Public Private Partnership." Leverabel 7.2 (D7.2): Data Management Plan från AMECRYS - Revolutionising Downstream Processing of Monoclonal Antibodies by Continuous Template- Assisted Membrane Crystallization. Licensierad under Creative Commons Attribution - Non Commercial - No Derivatives 4.0 International: https://snd.gu.se/sites/snd.gu.se/files/amecrys%20- %20Deliverable%20D7.2-CC.pdf 5