Hur bioinformatiker arbetar med lagring och delning av data

Relevanta dokument
Statistik över publikationer med öppen tillgång

Svensk Nationell Datatjänst

Utveckling och implementering av tjänster och stöd för forskningsdata - ett universitetsövergripande arbete

Open access och innovation

Öppen vetenskap principer, exempel och erfarenheter. Gustav Nilsonne

VETENSKAPSRÅDETS UPPDRAG: SAMORDNA DET NATIONELLA ARBETET MED ATT INFÖRA ÖPPEN TILLGÅNG TILL FORSKNINGSDATA

BEDÖMNINGSKRITERIER FÖR FAIR. Vetenskapsrådets uppdrag

SND-forum 14 nov Transfers of research data to National Archives and use of our data for research. Magnus Geber

Environment Climate Data Sweden

Vetenskapsrådets syn på Forskningsdata

ÖPPEN TILLGÅNG TILL FORSKNINGSDATA

Öppen tillgång till forskningsdata Forskarsamhället i förändring

Open access Höstmöte - Framtidens forskning inom arbets- och miljömedicin

Open APC Initiative Ett tyskt initiativ till internationell öppen APC-databas

Vägen till e-arkivet. NUAK 19 september Margareta Ödmark Avdelningen för arkiv och registratur

Datorer och matematik hjälper oss att motverka sjukdomar

Presentationen i korthet

SND, Fair Data och vägen framåt

OA-idealet på väg att bli norm för god publicering

Opportunities in Open Science Sammanfattning av seminariet 19 jan

Open access Hur går det till att tillgängliggöra forskningsresultat för alla? Beate Eellend, Kungliga Biblioteket

Vetenskapsrådets samordningsuppdrag om öppen tillgång till forskningsdata - datahanteringsplaner

Swedish National Data Service

Datorer och matematik hjälper oss att motverka sjukdomar

OPEN ACCESS. den ideala formen för vetenskaplig publicering. Bibliotek- och informationsvetenskapsprogrammet Umeå 7 november 2016

Svensk nationell policy för tillgängliggörande och lagring av forskningsdata. Wilhelm Widmark

VÄLKOMNA! SND workshop 15 november

ERFARENHETER FRÅN EN FORSKNINGSFINANSIÄR, STIFTELSEN RIKSBANKENS JUBILEUMSFOND BRITTA LÖVGREN, RJ OCH CHRISTER LAGVIK, UU

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Open Source-utveckling för kommuner. Allemanskod den nya svenska modellen?

specialbidrag som erhölls av undervisnings- och kulturministeriet. H e t p i and Ho c s H e

Open Science. Hur arbetar vi nationellt och på SU med dessa frågor?

Forte. Forskningsrådet för hälsa, arbetsliv och välfärd. Bild 1

Infrastrukturer/områden som kan ansöka om bidrag 2017

PRIS (Public Research Information Sweden)

SND Nätverksträff 1 juni Välkomna!

Forskningsdata vid Stockholms universitet ursäkta röran, vi bygger om våra tjänster

Öppen tillgång Nationella riktlinjer

Programvaror - Jo, tack, det vill vi ha...

Öppen tillgång forskningens villkor och omvärldens realiteter. Sverker Holmgren

Vad är Svensk nationell datatjänst och hur kan det bistå dig kring forskningsdata och datahantering?

GÖTEBORGS UNIVERSITET Sidan 1 av 6 Dnr A5 1983/04

OA-idealet på väg att bli norm för god publicering

SweLL & legal aspects. Elena Volodina

Nätverksträff 11 juni Välkomna!

MILJÖÖVER- VAKNING & FRAMTIDEN

Nationella riktlinjer för bättre tillgång till forskningsresultat (open access)

ECONOMIC EVALUATION IN DENTISTRY A SYSTEMATIC REVIEW

Projektdirektiv. SKONA: SND:s konsortie- och nätverksarbete

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA

HUGO-projektet. Kartläggningen av det mänskliga genomet

Svenska Linuxföreningen. Fri programvara Mer än bara gratis 1(17) Copyright 2006 Marcus Rejås

Handledning Sherpa/RoMEO

Bidrag till forskningsinfrastruktur av nationellt intresse

Open Access-publicering vid svenska lärosäten - en kartläggning 2011

En bibliometrisk jämförelse mellan LTU och vissa andra svenska och europeiska universitet.

Open access från varför till hur

Vad alla småföretag bör veta om molnlagring

SNITS-Lunch. Säkerhet & webb

Open Source - Utmaningar och fördelar

Open APC Sweden. Nationell öppen databas över publicerings- kostnader för öppet tillgängliga artiklar

Pass 2: Datahantering och datahanteringsplaner

Introduktion till git

Hantering av forskningsdata vid Stockholms universitet

Teoretiska överväganden kring långsiktig lagring av elektronisk information

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Dokumenthanteringsplan Bedriva forskning

Policy för vetenskaplig publicering

Svensk nationell datatjänst en infrastruktur för forskningsdata inom samhällsvetenskap, humaniora och medicin

Open access till artiklar 2018 Årlig uppföljning av öppen tillgång till artiklar registrerade i DiVA

K2:s publiceringspolicy

Varje dag säkras 3 miljoner svenskars vattenförsörjning med Linux

Släktträd med hjälp av databaser och program från Internet

Svensk nationell datatjänst, SND BAS Online

Vilka är Ibas Kroll Ontrack? Räddning av brända hårddiskar Oförutsedda utgifter Norrmän i rymddräkt

Introduktion till hårdvara, mjukvara och operativsystem

Forskningsfinansiärers perspektiv på open access - problem och möjligheter? Stiftelsen Riksbankens Jubileumsfond Britta Lövgren

En databas över förlagens policies

Programvarudesign för samarbete. Mötesplats Open Access Urban Andersson, Göteborgs UB Peter Hansson, Chalmers bibliotek

Varningssystem byggt på öppna källkodskomponenter Magnus Runesson SMHI

K2:s publiceringspolicy

2 Förutom styrelsen finns följande organ vid SciLifeLab:

Är det meningsfullt att försöka överraska förare flera gånger i rad när man utvärderar kollisionsvarning?

Men hej, det är ett datorspel!

Data på disk är en teknisk lösning i Capitex Säljstöd som gör att viss information ej sparas i databasen utan direkt på serverns hårddisk.

Swedish National Infrastructure for Computing Protokoll nr 6/2014 SNIC Sammanträdesdatum:

Förändring, evidens och lärande

Inbjudan att nominera teknikplattformar till SciLifeLab satelliter

Bilaga 3, Tjänste & Systemspecifikation

Digital arkivering och historiklagring Anastasia Pettersson och Anders Kölevik

Slutrapport. APFy.me

Användande av QGIS i Kristianstads kommun

Livscykelanalys eller LCA- Ett sätt att kommunicera produkters miljöpåverkan

Börja med git och GitHub - Windows

Riksarkivets IT-verksamhet. En integrerad del av vårt dagliga arbete och långsiktiga verksamhetsutveckling. Rolf Källman

Nobelpriset i fysik. Donna Strickland. för optiska pincetter och deras tillämpning på biologiska system

Swedish National Infrastructure for Computing Protokoll nr 4/2014 SNIC Sammanträdesdatum:

LIBRIS öppna infrastruktur

Microsoft.NET Version Http Activation MapGuide Open source (installerad på en webbserver, tillgänglig utanför brandväggen) Web Deploy 3.

Datahantering och tillgång till forskningsdata

Transkript:

Hur bioinformatiker arbetar med lagring och delning av data Lars Arvestad Numerisk analys och datalogi Swedish e-science Research Centre Science for Life Laboratory

? e c n e i c S e f Li Bioinformatik: en delningskultur Molekylärbiologi Dagens norm: Öppna databaser Krav på datadeposigon Öppen källkod Öppna GdskriKer populära Margaret Dayhoff, 1925-1983 Hackerkulturen GNU Linux BSD

Öppen publicering BioMedCentral Public Library of Science biorxiv Anses komplettera arxiv. Drivs av Cold Spring Harbour Lab Drivande krafter: Idealister Databrytning: text är data Gra4s a6 läsa Rä6 a6 återanvända

Idag: formaliserad delningskultur Bermuda principles Skapat 1996 av aktörer i Human Genome Project Dela all DNA-data inom 24 h! Fort Lauderdale agreement Skapat 2003 av 40 nyckelfigurer Free and unrestricted use of genome data inte bara DNA Forskare förväntas släppa sina data så snart de kan, långt innan de publicerar. Senast: The FAIR Guiding Principles I Scientific Data, 2016 Findable, Accessible, Interoperable, Reusable.

Öppna databaser Utgivare: från enskild forskare till stor organisation Exempel: GenBank, ENA UniProt Pfam Ensembl Syften: Deponering/arkivering Tillgängliggörande av data av analys Data deponeras redan Olyckligt med tvingande redundant deponering/arkivering Metadata vikggt och svårt Begränsningar och problem: Innehåll styrt av utgivaren Ibland dåliga metadata

Öppna databaser: alltid hotade Största utmaning: finansiering Kuratering kräver personal The Arabidopsis Information Resource: avgiftsbelagd Amos Bairoch (SwissProt): finansiera databaser genom att beskatta forskningsanslag EU:s lösning: ELIXIR Leds av Niklas Blomberg 15 anställda administratörer Involverat i The FAIR Guiding Principles Finansierar databaser, webbtjänster, utbildning, mm

Trend: faktisk reproducerbarhet Idé: varje publikation ska kunna reproduceras enkelt Svårt! Kräver: Långt gången automatisering God versionshantering Fullständig datadelning En lösning: virtuella datormiljöer innehåller data och kod

Trend: open science Idé: en forskare ska arbeta öppet All kod och utveckling offentlig All data offentlig Endast publicera i öppna tidskrifter Manus tidigt till biorxiv/arxiv Manusgranskning endast för öppna tidskrifter Signera & publicera dina manusgranskningar Publicera dina anslagsansökningar Gärna aktiv i sociala medier

Lagra Arkivera Tillgängliggöra Rådata Rådata Kod Kod Resultat Resultat Kod Resultat Rådata Kod Kod Data

Kod Kod Kod Kod Hur byggs samma Öppen källkod: ett löst problem tjänst för data? Förut: lokal server viktig Viktigast: tillgänglighet Idag: kommersiella tjänster GitHub, BitBucket, mfl Grundtjänsten gratis Stödjer: Versionshantering (med DOI) Dokumentation Kommunikation (utvecklare användare) Parallell utveckling (utvecklare utvecklare) Kod

Rådata Resultat Data Öppen lagring figshare datadryad.org datahub.io data.mendeley.com

Fallstudie: lagring av data SU kan erbjuda bävre lagringstjänst än lokal hårddisk Tanja Slotte, DEEP, i våras: SweStore är fullt, datorcentret tar inte emot mer, vad ska jag göra? Behov: rå datalagring för arbetsmaterial Tanja: terabyte online-lösningar: gigabyte Lösningar SweStore (idag 9,4 PB) ansök om upp till 500 TB Datorcentrum SciLifeLab har samarbete med UppMax (UU) Egna hårddiskar Och institutionens IT

Karakteristik SweStore Short to medium term storage system Data måste flyttas för beräkningar Datorcentrum Nära till beräkningen Projektknutet = tidsbegränsat Egna hårddiskar Bra för transport Långt till beräkningen Svårt hålla ordning Billigt!!! OprakGskt! Problem! OprakGskt!

Arbeta på kommandoraden

Fallstudie: granens arvsmassa Publikation: Nystedt et al, 2013 Utvecklad kod: tillgängligt på GitHub DNA-läsningar: ca 3 TB deponerat i GenBank (NCBI/NIH) Modell av arvsmassan (> 10 GB): ej välkommen till NCBI! För dålig kvalitet Hur dela ut? Lösning: egen webbserver (http://congenie.org)

Lokal webbserver: Pcons.net av Arne Elofsson mfl

Lokal webbserver: phobius.sbc.su.se av Lukas Käll, Erik Sonnhammer, mfl

hvps://tanjaslovelab.se hvp://bioinfo.se Kan SU stödja forskares webbtjänster? hvp://kaell.org hvp://www.jimdowling.info

the median lifespan of these web pages was 9.3 years...

Sammanfattning Datadeposition görs redan Olyckligt om lokal lagring/arkivering blir en administrativ ritual Bra metadata är svårt och/eller dyrt Forskare har växande lagringsproblem Nationell lösning? SU kan erbjuda bättre lagringstjänst än lokal hårddisk Kommandoradsgränssnitt viktigt Egna webbsajter är vanligt Kan SU stödja lokala webbtjänster? (Polopoly räknas inte)