det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC

Relevanta dokument

Swe-Clarin. Daniel Brodén Forskningssamordnare Swe-Clarin Swe-Clarin på turné, Stockholms universitet 16 maj 2018

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Jag befinner mig i Dublinförfarandet vad betyder det?

Europass Sverige. Så dokumenterar du dina meriter i Europa

META-NORD, META-NET, META-SHARE: Vad har alla dessa META grupper att bjuda på?

Digitalisering. enligt Kungliga biblioteket

Programmering och digital kompetens

Checklista: Beständiga identifierare

Samråd om hur UHF-bandet ska användas i framtiden: Lamyrapporten

Digitala reklaminvesteringar i Europa 2013 AdEx Benchmark 2013

Schematiska diagram över hur europeiska utbildningssystem är uppbyggda, 2011/12

Eftervalsundersökning 2014 VALET TILL EUROPAPARLAMENTET 2014

En rapport från Skattebetalarnas Förening. Välfärdsindex. - en kvalitetsjämförelse

Nationell databrunn - möjligheter och behov

Digitalt festivalengagemang

Varumärken 0 - MEDVERKAN

Schengen. Din väg till fri rörlighet i Europa SEPTEMBER 2013

Rekrytera i Europa. en vägledning för arbetsgivare. Europeiska kommissionen

Kungliga bibliotekets plan för nationell biblioteksutveckling. samverkan

Samverkan kring ämnen på ett högskoleförberedande program ett exempel

Öppen data och vad vi kan vinna på att offentliggöra uppgifter! Formatdag i västerås Björn Hagström bjorn.

För att föra EU närmare medborgarna och främja en subsidiaritetskultur.

YRKESKOMPETENS (YKB) Implementeringstid för YKB

Inresande studenter 1997/ / / /07

Kursplan för Svenska. Ämnets syfte och roll i utbildningen. Mål att sträva mot. Inrättad SKOLFS: 2000:135

CESSDA-arbete i Sverige

ZA6285. Flash Eurobarometer 414 (Preferences of Europeans towards Tourism, 2015) Country Questionnaire Finland (Swedish)

AVTAL FÖR MEDLEMSKAP I SKOLFEDERATION.SE För E-tjänsteleverantör

Nordplus-kurs, läsåret : Food and learning in a changing society - food is not only nutrition

Vägval för framtiden. Västernorrland, Sollefteå mars 2016 Annika Wallenskog

ZA5617. Flash Eurobarometer 334 (Survey on the Attitudes of Europeans Towards Tourism in 2012) Country Questionnaire Finland (Swedish)

Ett effektivt sätt att lösa

ZA5887. Flash Eurobarometer 370 (Attitudes of Europeans towards Tourism in 2013) Country Questionnaire Sweden

Ett Sverige i förändring: betydelsen av social sammanhållning

Erasmus+ Utbildningssamarbete i Europa Informationsmöte om KA1 mobilitetsprojekt. Katrin Lilliehöök

Exportsuccé, innovativ och hållbar 10 fakta om MÖBELNATIONEN SVERIGE

Tid: kl Plats: Krigssarkivet Sammanträdesrummet Stora Konferensrummet

Ansökan om legitimation för lärare och förskollärare - för dig som tagit examen utanför EU och EES

Trassliga trådspelet Troja

Krypande kaninen Karin

521 der Beilagen XXIII. GP - Staatsvertrag - Schlussakte Schwedisch (Normativer Teil) 1 von 7 SLUTAKT. AF/CE/AL/sv 1

Demoenkät Turism Denna enkät är ett referensexemplar. Om du vill arbeta med den - vänligen kontakta ImproveIT Sweden AB,

Del ur Läroplanen för specialskolan 2011: kursplan i teckenspråk för döva och hörselskadade

DEMOKRATI 4 DEMOKRATI OCH NATIONALISM

Gruppenkät. Lycka till! Kommun: Stadsdel: (Gäller endast Göteborg)

Open access.se underlag för styrgrupp den 16 september

KRIG OCH KONFLIKTER I VÄRLDEN

Härliga hörselskydden Hilma

FAQ. Frågor och svar. Mercell Tender Service

AVTAL FÖR MEDLEMSKAP I SKOLFEDERATION.SE För Huvudman

Bättre överblick, ännu bättre vård. Sammanhållen journalföring. Nya möjligheter för vården att få ta del av dina uppgifter.

RIKSDAGENS SVAR 117/2003 rd

Digital tjänst som matchar köpare och säljare av frakt

Mångfald på arbetsplatsen och mångfaldsarbete i ditt företag

Dagordningspunkt 3 (lagstiftningsöverläggningar) Rubrik: Förslag till direktiv om en europeisk skyddsorder Riktlinjedebatt

Utredning om införande av digital nämndhantering för socialnämnden

Flaxande fjärilen Frida

EPSU/ PSI Arbetsgrupp

OpenAccess.se aktuella frågor

PISA åringars kunskaper i matematik, läsförståelse, naturvetenskap och digital problemlösning

E-tjänst över näringsidkare

Bättre överblick, ännu bättre vård.

Del ur Lgr 11: kursplan i slöjd i grundskolan

Häftiga hästskolampan Hanna

OM GRÄNSHINDERDATABASEN

Därför prioriterar VINNOVA satsningar inom testverksamhet

Ung och utlandsadopterad

Mäta effekten av genomförandeplanen

Enkät om hur man beskriver elektroniska dokument: Sverige

JÄMSTÄLLT FÖRETAGARINDEX Attitydinfrastruktur i Ystad, Sjöbo, Malå och Åre

Socialt och ekonomiskt utsatta EU-medborgare

Europeiska unionens ungdomsprogram

Information angående registrering vid Sveriges advokatsamfund enligt 8 kap. 2 a rättegångsbalken (jfr direktiv 98/5/EG)

Förordning (2011:443) om Europeiska unionens punktskatteområde

Vad är Svensk nationell datatjänst och hur kan det bistå dig kring forskningsdata och datahantering?

BILAGA. till. Förslag till rådets beslut

Europeiskt ungdomsindex. Johan Kreicbergs November 2011

Geodata utvecklar e-förvaltningen

Stockholms besöksnäring. Augusti 2015

Stockholms besöksnäring. Oktober 2015

Turism 2015: Christina Lindström, biträdande statistiker Tel Ålands officiella statistik - Beskrivning av statistiken

Stockholms besöksnäring. Juni 2015

Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande:

Underlag för utformning av lokal digital plan

2 EU på 10 minuter. EU i din vardag

Europeiska unionens ungdomsprogram

Stockholms besöksnäring. Februari 2016

Säkerhet handlar om förutseende

Förstudie. Nerikes Brandkår. Diarieföring av allmänna handlingar Ref Roger Wallin

Öppen/Fri programvara

Risker i livförsäkringsföretag till följd av långvarigt låga räntor

0HG HXURSHLVNW GLJLWDOW LQQHKnOO EHKnOOHUYLOHGQLQJHQ

PISA (Programme for International

Entreprenörskap & Affärsutveckling (7,5 hp)

Vad händer i vår omvärld?

Det bästa som hänt under min tid som boklånare

Inkvarteringsstatistik för hotell

Kvarsättning i europeiska skolor: stora skillnader mellan länderna

BILAGA IV TILLÄMPLIGA ENHETSBELOPP

Transkript:

Vad är Swe-Clarin?

det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC

CLARIN European Research Infrastructure Consortium <http://www.clarin.eu>

CLARIN-ERIC ESFRI-förberedelsefasprojekt 2008 2011 CLARIN ERIC startade 2012: Bulgarien Danmark Estland Finland Grekland Italien Litauen Nederländerna Nederländska språkförbundet Norge Polen Portugal Slovenien (Storbritannien) Sverige Tjeckiska republiken Tyskland Österrike

CLARIN i ett nötskal (efter Steven Krauwer) Common Language Resources and Technology Infrastructure <http://www.clarin.eu>) Grundidé: Europeisk federation av digitala arkiv med språkresurser och språkverktyg (text, tal, multimodala, teckenspråk... ) med tillgång till resurser och verktyg genom nättjänster för att hämta, bearbeta, förädla, utforska och använda resurserna genom en samlad inloggningsprocedur för arkiv och verktyg med forskare inom humaniora och samhällsvetenskap som målgrupp som ska täcka alla EU-länder samt associerade stater och alla språk som är relevanta för målgruppen

Mål och visioner språkets roll (efter Steven Krauwer) Språket intar en central plats i många humanistiska och samhällsvetenskapliga discipliner. Exempelvis: som studieobjekt i sig som mänskligt kommunikationsmedel som mänskligt uttrycksmedel som kunskapskälla om vår historia som en del av vår kulturella identitet som kunskaps- och informationsbärare

varför CLARIN? CLARIN anpassar och utvecklar språkteknologi och språkresurshantering som e-vetenskap datorverktyg som forskningsstöd inom humaniora, samhällvetenskap och andra discipliner där innehållet i text (och tal) utgör primärdata för forskningen CLARIN bygger en basinfrastruktur för att möjliggöra forskning både på dagens enorma volymer primärt digitala språkliga data och på de snabbt ökande mängderna digitaliserade kulturarvsdata

SWE-CLARIN Swe-Clarin ( 50 MSEK från VR 2014 2018) startade 1/1 2014 med målen: att bilda en svensk nod i CLARIN ERIC (inträdet som 10:e medlem skedde 1/10 2014): Göteborgs universitet/språkbanken Göteborgs universitet/snd KTH Linköpings universitet Lunds universitet Stockholms universitet Uppsala universitet Språkrådet DigiSam att bygga en basinfrastruktur för CLARIN i Sverige

<https://sweclarin.se>

CLARIN-conceptet e-vetenskap i form av språkteknologi som forskningsverktyg för discipliner där text (och tal) är primärdata: humaniora samhällsvetenskap (vissa sorters) medicin CLARINs betydelse växer i takt med digitaliseringen av kulturarvet och den elektroniska kommunikationens utbredning

digital spetsforskningspotential Precis som vid gruvbrytning, kräver stora mängder informationsglest digitalt text- och talmaterial effektiv teknik för sökning, korrelering och korsindexering i det språkliga innehållet inte minst mellan olika språk för att forskningen ska få ut användbara primärdata ur det.

exempel 1: telefoner i Sverige

exempel 2: språkutveckling

exempel 3: ledtrådar till historiska händelser

(Swe-)CLARINs fyra ben 1. en teknisk infrastruktur: PID, identitetsfederation, automatisk metadatainhämtning, grid/moln 2. standardisering av data- och metadataformat samt innehållsmodeller: ISO TC37/SC7 (SIS TK115), W3C; hantering av upphovsrättsfrågor 3. en administrativ struktur för underhåll och vidareutveckling av infrastrukturen, samt för expertis och användarstöd: föreståndare, styrgrupp, referensgrupp, CLARIN-centra ( CLARIN ERIC) 4. språkteknologiska basresurser: en verktygshylla med dataresurser och språkverktyg

Vad gör SWE-CLARIN? Erbjuder arkiv för förvaring av data Tillgängliggör material för forskning Bistår med språkteknologiska analysverktyg Ger råd och vägledning Samarbetar med forskare och materialägare i forskningsprojekt Organiserar utåtriktade aktiviteter: tematiska workshopar användardagar Swe-Clarin på turné

användargrupperna i Sverige språkvetenskap (mycket långt kommen; e-vetenskap sen 1960-talet!) medicin (långt kommen; flera projekt) historia (några projekt) litteraturvetenskap (enstaka projekt) statsvetenskap (ansatser) I hela CLARIN-området är användningen betydande, och CLARIN ERIC blir ett centralt forum för effektivt utbyte av expertis och erfarenheter.

några konkreta Swe-Clarin-samarbeten politisk opinionsbildning i sociala medier (statsvetenskap, Göteborg) kvinnors aktiviteter i tidigmodern tid (historia, Uppsala) allusion och textåteranvändning i litteratur (litteraturvetenskap, Göteborg) språkliga signaler för tidig upptäckt av demens (medicin/vårdvetenskap, Göteborg) återupplivande av traditionell matlagning (ISOF m.fl., KTH) undersökning av diskriminerande gymnasiebetygssättning (nationalekonomi, Stockholm) förändring över tid i attityder till retorik (litteraturvetenskap, Uppsala) uppbyggnad av ett digitalt svenskt kvinnobiografiskt lexikon (historia/litteraturvetenskap, Göteborg)...... och många fler önskas!

från kökkenmödding till infrastruktur SWE-CLARIN

standarder är omfattande, petiga och osynliga...

... men de möjliggör fantastiska saker

språkteknologi som forskningsredskap och digitalisering av text och tal (1) utveckling av sofistikerade språkverktyg kräver öppna licenser (Open Content Open Source Open Access) för text och andra språkresurser (ordlistor, termbanker, tesaurer, etc.) detta beror bland annat på att den dominerande utvecklingsmetodologin bygger på maskininlärning ( självlärande system ) som kräver stora mängder träningsdata (men även manuella ansatser bygger på generalisering och abstraktion från språkliga rådata)

språkteknologi som forskningsredskap och digitalisering av text och tal (2) det är ett oerhört slöseri med resurser att alltid nyskapa träningsdata istället för att kunna ackumulera dem forskningens logik (verifierbarhet och reproducerbarhet) kräver dessutom att forskningsrådata alltid är åtkomliga öppna data skapar en god cirkel med ständigt bättre redskap för informationsåtkomst sprungna ur forskningen, som i sin tur kan dra nytta av den högkvalitativare informationen

med andra ord: den som för det allmännas räkning digitaliserar texter (i vid bemärkelse) och bygger databaser (t.ex. om kulturarvsobjekt) borde alltid (åtminstone) göra informationen i dess helhet så fritt tillgänglig som lagen tillåter (d.v.s. fulltext, kompletta databasdumpar, etc.) (med licenser som CC0, CC BY eller CC BY-SA som tillåter bearbetning och återdistribution) ett sämre men möjligt alternativ (som CLARIN stödjer) är dataåtkomst baserad på kategoritillhörighet (t.ex. forskare anställd vid ett universitet i ett medlemsland ) som kontrolleras genom s.k. identitetsfederationer (jfr. Eduroam).

(enbart) titthålsaccess räcker inte gör jag inte forskarsamhället en tjänst om jag strukturerar åtkomsten och tillhandahåller ett sökgränssnitt och/eller ett API (kanske byggt på öppna standarder) (t.ex. till en digitaliserad brevsamling, en språktypologisk, lexikalisk, bibliografisk eller biografisk databas, geodata eller mina forskningsdata)?

jo, absolut! men om jag gör enbart det, är alla andra utlämnade till vad jag vet och kan föreställa mig, och jag stänger fler möjligheter än jag öppnar, eftersom det inte går att förutse framtidens forskningsfrågor och forskningsmetoder och eftersom det blir svårt eller omöjligt att kombinera/korrelera material från olika källor eller generalisera över datamängderna ( data mining / text mining )

vilka är hindren? juridiska: integritet (t.ex. inspelade samtalsdata) sekretess (t.ex. patientjournaler) upphovsrätt ( moderna textdata, teve/radioprogram): inget undantag för forskning ekonomiska/ideologiska/politiska/tekniska: trög och bristfällig digitalisering ovana (omedvetenhet)/ovilja att dela med sig av forskningsdata data-, metadata- och innehållsstandarder under utveckling ( rörliga mål )

sammanfattningsvis Swe-Clarin är en e-vetenskapsinfrastruktur för humaniora och samhällsvetenskap som är under uppbyggnad i Sverige som en del av det europeiska CLARIN ERIC-initiativet Två faktorer är avgörande för Swe-Clarins framtid: 1. koppling till faktiska forskningsfrågor hos målgruppen 2. tillgång till digitala språkresurser på villkor som möjliggör både fri forskning på resurserna och vidareutveckling av infrastrukturen

tack för uppmärksamheten!