Att få pengar till stora infrastrukturer: Swe-Clarin och Nationella språkbanken Lars Borin Nationell koordinator Swe-Clarin lars.borin@svenska.gu.se DARIAH-SE-möte, Kungliga biblioteket 1 mars 2019
Swe-Clarin ingår i CLARIN ERIC (European Research Infrastructure Consortium) <https://www.clarin.eu> DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars 2Borin
CLARIN ERIC ESFRI-förberedelsefasprojekt 2008 2011 CLARIN ERIC startade 2012 och omfattar idag: Bulgarien Danmark Estland Finland (Frankrike) Grekland (Island) Italien Kroatien Lettland Litauen Nederländerna (Nor)ge Polen Portugal Slovenien (Storbritannien) Sverige (Sydafrika) Tjeckiska republiken Tyskland Ungern (USA) Österrike Nederländska språkförbundet DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars 3Borin
CLARIN i ett nötskal (efter Steven Krauwer) Common Language Resources and Technology Infrastructure Grundidé: Europeisk federation av digitala arkiv med språkresurser och språkverktyg (text, tal, multimodala, teckenspråk... ) med tillgång till resurser och verktyg genom nättjänster för att hämta, bearbeta, förädla, utforska och använda resurserna genom en samlad inloggningsprocedur för arkiv och verktyg med forskare inom humaniora och samhällsvetenskap som målgrupp som ska täcka alla EU-länder samt associerade stater och alla språk som är relevanta för målgruppen DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars 4Borin
Swe-Clarin Swe-Clarin startade med VR-finansiering 2014 2018 för att: bilda en svensk nod i CLARIN ERIC (inträdet som 10:e medlem skedde 1/10 2014): Göteborgs universitet (GU)/Språkbanken GU/SND KTH Linköpings universitet Lunds universitet Stockholms universitet Uppsala universitet ISOF/Språkrådet Riksarkivet Fortsättningsanslag nu beviljat 2019 2024, med nytillkommande Swe-Clarin-centra: GU/Centrum för digital humaniora Kungliga biblioteket Umeå universitet bygga en basinfrastruktur för CLARIN i Sverige DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars 5Borin
<https://sweclarin.se> DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars 6Borin
varför CLARIN? CLARIN anpassar och utvecklar språkteknologi och språkresurshantering som e-vetenskap datorverktyg som forskningsstöd inom humaniora, samhällvetenskap och andra discipliner där innehållet i text (och tal) utgör primärdata för forskningen CLARIN bygger en basinfrastruktur för att möjliggöra forskning både på dagens enorma volymer primärt digitala språkliga data och på de snabbt ökande mängderna digitaliserade kulturarvsdata DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars 7Borin
ett exempel DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars 8Borin
Male characters några fler exempel Female characters Figure 5: Summary plot for the novel Kerrmans i paradiset. Lines are grouped according to the two categories male / female and are sorted within each category according to the overall frequency of the characters. volvement of different characters across the document. of the evolution of human behavior, society, tech- Even more details are provided by the nological advancement and cultural trends. As literature fingerprinting technique. Because the technique is very scalable, every single word can a matter of fact, (Michel, 2010), introduced the term Culturomics, i.e. the application of highthroughput be visualized. Coloring is used to encode text data collection, digital book archives properties of interest. Again, the development of the characters across a document is visible, this time even within single chapters. However, compared to the summary plot technique, fewer person names can be distinguished. Obviously, a combination of the three techniques is advisable for analyzing novels with respect to the persons involved. But our comparison of the three techniques also allows us to identify a missing type of visualization: One that is able to show the development of the story in terms of the characters involved and at the same time is able to and the like, and analysis to the study of human culture and we believe that novel insights towards this direction can be gained by combining such technologies. In this paper we have shown that quantifiable data such as (person) names can be identified, extracted, and visualized in novel ways. In the future we intend to further extend the capabilities for visual literature analysis. One research goal is the development of a visualization technique that allows to investigate the development of a story across a novel but at the same display their relationships. time shows the relationships between the characters. Furthermore, we believe that Furthermore, the techniques lead to interesting in- 9 interactive DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars Borin
vad gör SWE-CLARIN? Erbjuder arkiv för förvaring av data Tillgängliggör material för forskning Bistår med språkteknologiska analysverktyg Ger råd och vägledning Samarbetar med forskare och materialägare i forskningsprojekt Organiserar utåtriktade aktiviteter: tematiska workshopar användardagar Swe-Clarin på turné DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars10Borin
några konkreta Swe-Clarin-samarbeten politisk opinionsbildning i sociala medier (statsvetenskap, Göteborg) kvinnors aktiviteter i tidigmodern tid (historia, Uppsala) allusion och textåteranvändning i litteratur (litteraturvetenskap, Göteborg) medicinskt beslutsstöd med språkteknologi och AI (medicin/biologi, Lund) språkliga signaler för tidig upptäckt av demens (medicin/vårdvetenskap, Göteborg) Från närläsning till fjärrläsning (litteraturvetenskap/nordiska språk, Uppsala) undersökning av diskriminerande gymnasiebetygssättning (nationalekonomi, Stockholm) uppbyggnad av ett digitalt svenskt kvinnobiografiskt lexikon (historia/litteraturvetenskap, Göteborg)... DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars11Borin
infrastrukturfinansiering fjärilseffekten i januari 2006: DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars12Borin
den krokiga vägen mot målet 2006 En infrastruktur för svensk språkteknologi (planeringsbidrag, VR, 1 MSEK) 2009 En infrastruktur för svensk språkteknologi (driftsbidrag, VR, 115 MSEK) 2009 E-vetenskap i nya spår (strategiska forskningsområden, VR, 137 MSEK) 2011 SWE-CLARIN: en svensk infrastruktur för språkresurser och språkteknologi (driftsbidrag, VR, 236 MSEK) 2012 Mot en svensk e-vetenskapsinfrastruktur för humaniora och samhällsvetenskap (planeringsbidrag, VR, 1,5 MSEK) 2013 SWE-CLARIN: Svensk språkteknologi för humaniora och samhällsvetenskap (driftsbidrag, VR, 50 MSEK) 2017 Språkbanken & Swe-Clarin (driftsbidrag, VR, 105 MSEK) DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars13Borin
Nationella språkbanken Nationella språkbanken: VR-bidrag (Språkbanken & Swe-Clarin) för 2018 2024 ungefär halva den sökta budgeten beviljad (30 mkr/år; 8 av 14 planerade moduler får finansiering) tre avdelningar SBTEXT SBTAL SBSAM (GU/SB) (KTH/TMH) (ISOF/Språkrådet) + det svenska bidraget till CLARIN ERIC (Swe-Clarin): tre nya Swe-Clarin-parter tillkommer: GU/CDH, KB, UmU/Humlab DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars14Borin
avdelningar och moduler Ingen finansiering för: M7: Swedish Sign Language; M8: general linguistics; M9: speech data acquisition laboratories; M11: literature digitization; M12: archive speech data; M14: Swe-Clarin A Services DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars15Borin
verksamhet och bemanning Nationella språkbanken är en forskningsinfrastruktur (en e-infrastruktur) som ska stödja forskning som använder sig av språkligt material, i första hand språkteknologi och (svensk) språkvetenskap, men även alla andra discipliner där språkliga data utgör primära forskningsdata, särskilt i humaniora och samhällsvetenskap (digital humaniora). Vi ska fokusera på två aktiviteter (personalkategori): Samarbete med och stöd åt forskare (experter/specialister) Utveckling och underhåll av e-infrastrukturen (utvecklare/forskningsingenjörer) + styrning administration kommunikation (föreståndare, administratörer, kommunikatörer) DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars16Borin
några infrastrukturkomponenter under utarbetande Y1: Swedish sentiment lexicon APIs for accessing SB Sam data ready for use Swedish L2 gold standard corpus Swedish L2 data portal/exercise generator Y2: Reference tokenizer for modern Swedish Reference sentence segmenter for modern Swedish Full Swedish wordnet Full Swedish framenet Swedish sentiment gold standard corpus Word sense tagger for modern Swedish Citia Core Data counterpart collected, ASR and TTS trained on this data All in-house material from the archives in Lund and Umeå digitized and marked according to international metadata standards Swedish L2 analysis LT toolset Prototype interactive text browser for DH research Y3: Semantic role labeler for modern Swedish Models, raw data made freely available New methods and services for collecting data of type 1 and 2 ready for use in first versions Core system for handling different types of vocabulary ready in first version Annotated reference corpora for Old and Early Modern Swedish Interactive text browser for DH research Linguistic annotation and visualization tools for DH Y4: Modern Swedish reference corpus with full annotation LT toolset for Old and Early Modern Swedish ASR and TTS services (limited capacity) made availabe Cloud availability of tools and tool chains for advanced semi-automated or technology- enhanced manual annotation of speech resources SSL corpora and lexicons published through Korp and Karp DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars17Borin
en självbespeglande forskningsinfrastruktur Nationella språkbanken är en forskningsinfrastruktur baserad på språkteknologi som stödjer forskning i språkteknologi språkvetenskap (digital) humaniora och samhällsvetenskap DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars18Borin
utvärderingskriterier (enligt VR:s villkor) Kvantitativa data om antal användare av infrastrukturen(*) personal (fördelade på kvinnor och män) användare per funktionell modul publikationer och patent från forskning som använt infrastrukturen datamängder utvecklade av infrastrukturen ansökningar om åtkomst till infrastrukturen(*) (beviljade/icke beviljade) ansökningar om tillgång till datamängder(*) (beviljade/icke beviljade) (*)fördelade på kvinnor/män, nationella/internationella, interna/externa DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars19Borin
VR:s infrastrukturcykel Nationella infrastrukturer och svenskt deltagande i internationella infrastrukturer (del)finansieras av VR. Proceduren från idé till finansiering följer en tvåårscykel som ser ut så här: år 1 udda årtal (t.ex. 2017): intresseanmälningar från infrastrukturkonsortier år 2 jämna årtal (t.ex. 2018): klassificering av föreslagna infrastrukturer (efter sakkunniggranskning) i angelägenhetsgrad: A1, A2, A3, B, C, D, X år 3: udda årtal (t.ex. 2019): utlysning där endast kategori A1 kan söka besked om finansiering och samråd om budget (VR finansierar högst 50% av budgeten) år 4: jämnt årtal (t.ex. 2020): start för verksamheten i finansierade infrastrukturer DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars20Borin
Kriterier för infrastruktur av nationellt intresse En infrastruktur ska: vara av brett nationellt intresse ge förutsättningar för världsledande forskning nyttjas av ett flertal forskargrupper eller användare med högt kvalificerade forskningsprojekt vara så omfattande att enskilda grupper inte kan driva den på egen hand ha en långsiktig planering för vetenskapliga mål, finansiering och nyttjande vara öppen och enkelt tillgänglig för forskare, industri och andra användare, samt ha en plan för tillgängligheten (gäller både nyttjande av infrastrukturen, tillgång till insamlade data och presentation av resultat) samt i relevanta fall introducera ny spetsteknologi. DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars21Borin
Infrastruktur av nationellt intresse från ansökan till beslut Ansökan inkommen 7 mars Granskning: Möte under april -17 Utlysning öppnar 1 februari Utlysning och beredning maj Ämnesråd synpunkter Beslut dec 2017 Alt 1. Finansiering fr.o.m. 2018 Alt 2. Finansiering fr.o.m. 2019 Alt 2. Avslag Dialog konsortium/vr sep-dec 2017 Inriktningsbeslut RFI 13-14 september DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars22Borin
bedömning/angelägenhetsgrad A1 A2 A3 B C D X Har relevans för att övervägas som infrastruktur av nationellt intresse, redo för utlysning Har relevans för att övervägas som infrastruktur av nationellt intresse, men i nuläget inte prioriterade av VR Har relevans för att övervägas som infrastruktur av nationellt intresse, inte redo för utlysning Har inte relevans för att övervägas som infrastruktur av nationellt intresse på grund av Behovet kan täckas av befintlig nationell eller internationell infrastruktur Bör handläggas av en annan organisation eller på annat sätt, nämligen Kunde inte bedömas på grund av bristfällig information eller otydlig beskrivning DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars23Borin
behovsinventeringen 2017 2018 81 förslag inlämnade (14 A1, 3 A2, 16 A3, 24 B, 5 C, 15 D, 4 X), varav följande HS-infrastrukturer: A1 Kontextdatabaser för samhällsvetenskap A1 MEDem Monitor för Elektoral Demokrati i Europa (ESFRIs vägvisare) A2 Kulturarv och digitalisering A3 Digital arkeologisk analys och visualisering A3 Digital infrastruktur för historiska platser A3 Humlab A3 Infrastruktur för konstnärliga forskningsdata A3 Infrastruktur för laborativ arkeologi B Flerspråkiga trädbanker B Högkvalitativa Historiska Databaser B Infrastruktur för forskning om det civila samhället B Svensk infrastruktur för Heritage Science B Svenskt kvinnobiografiskt lexikon D Lagring och distribution av högfrekvent tillgångsprisdata D Nod för forskning om digitalisering i undervisning och lärande (DLC-FoU) X Infrastruktur för framtidens humaniora DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars24Borin
med andra ord: VR-processen för att få till ett svenskt medlemskap i DARIAH torde alltså se ut så här: 2019: intresseanmälan 2020: klassning som kategori A1 av VR 2021: ansökan i RFI-utlysningen om infrastrukturer av nationellt intresse 2021: beviljande och samråd med VR om budget 2022: projektstart... men bara VR vet exakt hur det kommer att se ut, så det är bäst att försöka ha god och kontinuerlig kontakt med dem (gå på informationsmöten, etc.). DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars25Borin
tack för uppmärksamheten! DARIAH-SE-möte, Kungliga biblioteket Infrastrukturfinansiering Lars26Borin