Vad är Swe-Clarin?
det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC
CLARIN European Research Infrastructure Consortium <http://www.clarin.eu>
CLARIN-ERIC ESFRI-förberedelsefasprojekt 2008 2011 CLARIN ERIC startade 2012: Bulgarien Danmark Estland Finland Grekland Italien Litauen Nederländerna Nederländska språkförbundet Norge Polen Portugal Slovenien (Storbritannien) Sverige Tjeckiska republiken Tyskland Österrike
CLARIN i ett nötskal (efter Steven Krauwer) Common Language Resources and Technology Infrastructure <http://www.clarin.eu>) Grundidé: Europeisk federation av digitala arkiv med språkresurser och språkverktyg (text, tal, multimodala, teckenspråk... ) med tillgång till resurser och verktyg genom nättjänster för att hämta, bearbeta, förädla, utforska och använda resurserna genom en samlad inloggningsprocedur för arkiv och verktyg med forskare inom humaniora och samhällsvetenskap som målgrupp som ska täcka alla EU-länder samt associerade stater och alla språk som är relevanta för målgruppen
Mål och visioner språkets roll (efter Steven Krauwer) Språket intar en central plats i många humanistiska och samhällsvetenskapliga discipliner. Exempelvis: som studieobjekt i sig som mänskligt kommunikationsmedel som mänskligt uttrycksmedel som kunskapskälla om vår historia som en del av vår kulturella identitet som kunskaps- och informationsbärare
varför CLARIN? CLARIN anpassar och utvecklar språkteknologi och språkresurshantering som e-vetenskap datorverktyg som forskningsstöd inom humaniora, samhällvetenskap och andra discipliner där innehållet i text (och tal) utgör primärdata för forskningen CLARIN bygger en basinfrastruktur för att möjliggöra forskning både på dagens enorma volymer primärt digitala språkliga data och på de snabbt ökande mängderna digitaliserade kulturarvsdata
SWE-CLARIN Swe-Clarin ( 50 MSEK från VR 2014 2018) startade 1/1 2014 med målen: att bilda en svensk nod i CLARIN ERIC (inträdet som 10:e medlem skedde 1/10 2014): Göteborgs universitet/språkbanken Göteborgs universitet/snd KTH Linköpings universitet Lunds universitet Stockholms universitet Uppsala universitet Språkrådet DigiSam att bygga en basinfrastruktur för CLARIN i Sverige
<https://sweclarin.se>
CLARIN-conceptet e-vetenskap i form av språkteknologi som forskningsverktyg för discipliner där text (och tal) är primärdata: humaniora samhällsvetenskap (vissa sorters) medicin CLARINs betydelse växer i takt med digitaliseringen av kulturarvet och den elektroniska kommunikationens utbredning
digital spetsforskningspotential Precis som vid gruvbrytning, kräver stora mängder informationsglest digitalt text- och talmaterial effektiv teknik för sökning, korrelering och korsindexering i det språkliga innehållet inte minst mellan olika språk för att forskningen ska få ut användbara primärdata ur det.
exempel 1: telefoner i Sverige
exempel 2: språkutveckling
exempel 3: ledtrådar till historiska händelser
(Swe-)CLARINs fyra ben 1. en teknisk infrastruktur: PID, identitetsfederation, automatisk metadatainhämtning, grid/moln 2. standardisering av data- och metadataformat samt innehållsmodeller: ISO TC37/SC7 (SIS TK115), W3C; hantering av upphovsrättsfrågor 3. en administrativ struktur för underhåll och vidareutveckling av infrastrukturen, samt för expertis och användarstöd: föreståndare, styrgrupp, referensgrupp, CLARIN-centra ( CLARIN ERIC) 4. språkteknologiska basresurser: en verktygshylla med dataresurser och språkverktyg
Vad gör SWE-CLARIN? Erbjuder arkiv för förvaring av data Tillgängliggör material för forskning Bistår med språkteknologiska analysverktyg Ger råd och vägledning Samarbetar med forskare och materialägare i forskningsprojekt Organiserar utåtriktade aktiviteter: tematiska workshopar användardagar Swe-Clarin på turné
användargrupperna i Sverige språkvetenskap (mycket långt kommen; e-vetenskap sen 1960-talet!) medicin (långt kommen; flera projekt) historia (några projekt) litteraturvetenskap (enstaka projekt) statsvetenskap (ansatser) I hela CLARIN-området är användningen betydande, och CLARIN ERIC blir ett centralt forum för effektivt utbyte av expertis och erfarenheter.
några konkreta Swe-Clarin-samarbeten politisk opinionsbildning i sociala medier (statsvetenskap, Göteborg) kvinnors aktiviteter i tidigmodern tid (historia, Uppsala) allusion och textåteranvändning i litteratur (litteraturvetenskap, Göteborg) språkliga signaler för tidig upptäckt av demens (medicin/vårdvetenskap, Göteborg) återupplivande av traditionell matlagning (ISOF m.fl., KTH) undersökning av diskriminerande gymnasiebetygssättning (nationalekonomi, Stockholm) förändring över tid i attityder till retorik (litteraturvetenskap, Uppsala) uppbyggnad av ett digitalt svenskt kvinnobiografiskt lexikon (historia/litteraturvetenskap, Göteborg)...... och många fler önskas!
från kökkenmödding till infrastruktur SWE-CLARIN
standarder är omfattande, petiga och osynliga...
... men de möjliggör fantastiska saker
språkteknologi som forskningsredskap och digitalisering av text och tal (1) utveckling av sofistikerade språkverktyg kräver öppna licenser (Open Content Open Source Open Access) för text och andra språkresurser (ordlistor, termbanker, tesaurer, etc.) detta beror bland annat på att den dominerande utvecklingsmetodologin bygger på maskininlärning ( självlärande system ) som kräver stora mängder träningsdata (men även manuella ansatser bygger på generalisering och abstraktion från språkliga rådata)
språkteknologi som forskningsredskap och digitalisering av text och tal (2) det är ett oerhört slöseri med resurser att alltid nyskapa träningsdata istället för att kunna ackumulera dem forskningens logik (verifierbarhet och reproducerbarhet) kräver dessutom att forskningsrådata alltid är åtkomliga öppna data skapar en god cirkel med ständigt bättre redskap för informationsåtkomst sprungna ur forskningen, som i sin tur kan dra nytta av den högkvalitativare informationen
med andra ord: den som för det allmännas räkning digitaliserar texter (i vid bemärkelse) och bygger databaser (t.ex. om kulturarvsobjekt) borde alltid (åtminstone) göra informationen i dess helhet så fritt tillgänglig som lagen tillåter (d.v.s. fulltext, kompletta databasdumpar, etc.) (med licenser som CC0, CC BY eller CC BY-SA som tillåter bearbetning och återdistribution) ett sämre men möjligt alternativ (som CLARIN stödjer) är dataåtkomst baserad på kategoritillhörighet (t.ex. forskare anställd vid ett universitet i ett medlemsland ) som kontrolleras genom s.k. identitetsfederationer (jfr. Eduroam).
(enbart) titthålsaccess räcker inte gör jag inte forskarsamhället en tjänst om jag strukturerar åtkomsten och tillhandahåller ett sökgränssnitt och/eller ett API (kanske byggt på öppna standarder) (t.ex. till en digitaliserad brevsamling, en språktypologisk, lexikalisk, bibliografisk eller biografisk databas, geodata eller mina forskningsdata)?
jo, absolut! men om jag gör enbart det, är alla andra utlämnade till vad jag vet och kan föreställa mig, och jag stänger fler möjligheter än jag öppnar, eftersom det inte går att förutse framtidens forskningsfrågor och forskningsmetoder och eftersom det blir svårt eller omöjligt att kombinera/korrelera material från olika källor eller generalisera över datamängderna ( data mining / text mining )
vilka är hindren? juridiska: integritet (t.ex. inspelade samtalsdata) sekretess (t.ex. patientjournaler) upphovsrätt ( moderna textdata, teve/radioprogram): inget undantag för forskning ekonomiska/ideologiska/politiska/tekniska: trög och bristfällig digitalisering ovana (omedvetenhet)/ovilja att dela med sig av forskningsdata data-, metadata- och innehållsstandarder under utveckling ( rörliga mål )
sammanfattningsvis Swe-Clarin är en e-vetenskapsinfrastruktur för humaniora och samhällsvetenskap som är under uppbyggnad i Sverige som en del av det europeiska CLARIN ERIC-initiativet Två faktorer är avgörande för Swe-Clarins framtid: 1. koppling till faktiska forskningsfrågor hos målgruppen 2. tillgång till digitala språkresurser på villkor som möjliggör både fri forskning på resurserna och vidareutveckling av infrastrukturen
tack för uppmärksamheten!