Språkbanken en (inter)nationell forskningsinfrastruktur



Relevanta dokument
Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Vi värnar om det svenska i Finland varje dag

ENGELSKA FÖR DÖVA. Ämnets syfte

UPPFÖLJNING AV VERKSAMHETSPLAN 2013

Bidrag till uppbyggnad och drift aven svensk nationell infrastruktur - Swedish National Infrastructure for Computing (SNIC)

Undervisningen i ämnet engelska ska ge eleverna förutsättningar att utveckla följande:

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

Förslag den 25 september Engelska

REGLER FÖR FORSKNINGSINFRASTRUKTUR VID GÖTEBORGS UNIVERSITET

Språk, datorer och textbehandling

SpråkVis - Språkteknologisk vismansrapport

Svensk nationell datatjänst, SND BAS Online

Språk, datorer och textbehandling

REGLER FÖR FORSKNINGSINFRASTRUKTURER VID GÖTEBORGS UNIVERSITET

Vetenskapsrådets arbete med nationell infrastruktur

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

ENGELSKA. Ämnets syfte. Kurser i ämnet

Bilaga 1: Uppföljning av de strategiska forskningsområdena 2010

Ämne - Engelska. Ämnets syfte

INSTRUKTION FÖR ENHETEN FÖR DEMOGRAFI OCH ÅLDRANDEFORSKNING (CEDAR)

UU i korthet. Tre vetenskapsområden, nio fakulteter, 60 institutioner

Mål i mun Förslag på en plan för svenska språket

Institutionen för svenska språket

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

FinELib. FinELib-konsortiet är rätt partner för vetenskap, forskning, undervisning och inlärning på högsta nivå

Svensk nationell datatjänst en infrastruktur för forskningsdata inom samhällsvetenskap, humaniora och medicin

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

Språk, datorer och textbehandling

Utdrag ur underlag till fakultetsnämnden Strategisk satsning på meriteringsanställningar

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

ANSTÄLLNING SOM PROFESSOR I JURIDIK VID ENHETEN I VASA PÅ VISS TID FÖR TIDEN

Institutionen för svenska språket

Remissvar på Att förstå och bli förstådd ett reformerat regelverk för tolkar i talade språk (SOU 2018:83)

Textforskningen och dess metoder idag

INSTRUKTION FÖR ARBETSENHET HUMLAB

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Fakulteten för teknik. Strategi

Forskningsfinansiering i Sverige. Sedan 2001 finns fyra forskningsråd i Sverige: Vetenskapsrådet Forte Formas Vinnova

Uppdrag att föreslå områden för förstärkt forsknings-, innovations- och utbildningssamarbete med Kina m.m.

Information till blivande konsortier som avser att söka bidrag för nationell infrastruktur 2015.

Dnr: 2014/ Regeldokument. Språkpolicy. Beslutat av Rektor. Gäller från

Regeringskansliet Faktapromemoria 2017/18:FPM51. Förslag till rådets förordning om upprättandet av ett gemensamt företag för en

Mål och strategier för Uppsala universitet - Campus Gotland

Riktad utlysning för databaser inom samhällsvetenskap och medicin med fokus på individdata. VR:s registerforskningsuppdrag

STÄRKANDE AV UNIVERSITETENS PROFILERING MED KONKURRENSUTSATT FINANSIERING

Principer vid prövning av ämne för examensrätt på forskarnivå

Härnösands internationella arbete - ny internationell policy

Värdskap för Svensk Nationell Datatjänst för Klimat- och Miljödata (SND-KM)

Strategi för fakulteten för hälsooch livsvetenskap

Forskning och utveckling för en skola som vilar på vetenskaplig grund och beprövad erfarenhet

SUNET:s strategi SUNET:s strategigrupp

Förslag till Nationell strategi för skolans digitalisering

SpråkVis Språkteknologisk vismansrapport

Språkpolicy för Umeå universitet Fastställd av rektor Dnr: UmU

Få ut 100x mer av er data.

Samverkan kring ämnen på ett högskoleförberedande program ett exempel

Litteraturbanken, en digital resurs för svensk skönlitteratur och humaniora

Humanistiska programmet (HU)

Riktlinjer för antagning som docent

Bidrag till uppbyggnad och drift av en svensk nationell infrastruktur NAMN

Språkteknologi och Open Source

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Göteborgs universitetsbibliotek

Fördelning av medel till fakulteter och Lärarhögskolan utifrån utvärdering av forskningskontrakt samt verksamhetsplaner

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Om ämnet Engelska. Bakgrund och motiv

Samverkan och nätverk inom ABM-området. Infrastruktur i samverkan. 11 november Gunnar Sahlin.

Vad, hur. varför. Svenska litteratursällskapet i Finland. och

Utbildningsplan för Masterprogram i översättning (Översättarutbildningen)

Språkkonsultprogrammet

Högskolan som både myndighet och akademi. Daniel Gillberg Planeringsdirektör, Uppsala universitet

Dnr 2015/4. Verksamhetsplan Institutionen för nordiska språk. Fastställd av institutionsstyrelsen

Magisterprogram i språk och litteratur

Preambel ÞORGERÐUR KATRÍN GUNNARSDÓTTIR, UNDERVISNINGSMINISTER, ØYSTEIN DJUPEDAL,

1 (5) Yttrande. Utrikesdepartementet Enheten för internationell handelspolitik och EU:s inre marknad Stockholm

Föreläsning vid Svenska Litteratursällskapet den 12 maj 2011 kl Ingvar Dahlbacka

Språkvård och språkteknologi i Norden

Göteborg-Backa och Hisingen Rotaryklubbar

SVEK11, Svenska: Språklig inriktning - kandidatkurs, 30 högskolepoäng Swedish Language: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle

Vision och strategi Universitetsbiblioteket

Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt

STRATEGI För hållbara och livskraftiga lösningar inom det sociala området i Svenskfinland

SPRÅKKONSULTPROGRAMMET

LiTH Syllabus Ver 2.0 1

VETENSKAPSRÅDETS UPPDRAG: SAMORDNA DET NATIONELLA ARBETET MED ATT INFÖRA ÖPPEN TILLGÅNG TILL FORSKNINGSDATA

Framtida utmaningar bibliotekets roll SLU-bibliotekets strategi

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Policy för förvärv och medieurval vid Mittuniversitetets bibliotek

Instruktion för Umeå marina forskningscentrum

Kommunikationsstrategi

Kursplan för utbildning i svenska för invandrare

RÅD FRÅN EN ENAD SCENKONSTBRANSCH TILL EN KOMMANDE KULTURMINISTER

Forskningsstrategi. för Institutet för språk och folkminnen

Utlysning Steg 1 - Etablering av innovationsmekanism för utveckling av samhällsskydd och beredskap

Transkript:

Språkbanken en (inter)nationell forskningsinfrastruktur 1 Språkbanken en (inter)nationell forskningsinfrastruktur Språkbanken som forskningsenhet Språkbanken <http://spraakbanken.gu.se> inrättades 1975 som en nationell forskningsenhet placerad vid Göteborgs universitets humanistiska fakultet. Språkbankens uppdrag blev och är fortfarande att samla in, utveckla och tillgängliggöra språkresurser (till exempel korpusar (stora textsamlingar), lexikon, samt språkteknologiska verktyg för att utveckla och använda övriga resurser) åt forskare och allmänheten. Språkbanken var ett direkt resultat av Sture Alléns pionjärinsatser inom svensk korpuslingvistik under 1960-talet, vilka ledde fram till Press-65, en av de första stora elektroniska textkorpusarna för ett annat språk än engelska. Språkbanken har utvecklats till en nationellt och internationellt erkänd forskningsenhet, med en unik kompetens vad gäller svenska textkorpusar, parallellkorpusar, svenska elektroniska lexikonresurser samt språkteknologiska verktyg för att bearbeta, annotera och visa upp textkorpusar. Huvuddelen av materialet är modernt, men ambitionen är att resurserna ska avspegla hela den skrivna svenskans historia från medeltiden till modern tid med alla dess genrer. Resurserna används flitigt av forskare i och utanför Sverige, både i empirisk forskning och i undervisning i svenska, nordiska språk och kontrastiv eller typologisk lingvistik. De används också mycket av allmänheten, eftersom huvuddelen av resurserna är fritt åtkomliga för sökning via webbgränssnitt. Korpusmaterialen presenteras i huvudsak genom ett webbaserat sökgränssnitt (Korp; se nedan), där sökträffarna ges i form av konkordansrader. Denna presentationsform föredras av många språkvetenskapliga forskare. I ökande utsträckning kan vi också tillhandahålla språkliga data för nedladdning, något som ofta krävs för språkteknologisk forskning. Språkbankens lexikonresurser är sökbara online och för det mesta även fritt nedladdningsbara i standardiserade format för alla typer av användning. Språkbankens forskning hör hemma inom huvudområdet språkteknologi, som utvecklats till ett av Göteborgs universitets styrkeområden, där Språkbanken utgör en vital del av centrumbildningen Centre for Language Technology <http://www.clt.gu.se>. Språkteknologi handlar om hur man kan få datorer att hantera mänskligt språk i alla dess former, och Språkbankens forskning handlar mer specifikt om att utveckla språkteknologi för svenska språket genom tiderna. Det är ett karakteristiskt drag för språkteknologiforskningen att den med nödvändighet bedrivs i nära växelverkan med konkreta tillämpningar. Det bästa sättet att testa hypoteser inom vårt område är oftast att konstruera ett datorprogram eller en språkresurs som ska användas av ett datorprogram. All forskning är kumulativ och bygger på reproducerbarhet. När det gäller språkteknologiforskning tar sig den principen ytterst konkret uttryck: Återanvändbarhet spelar här en mycket framträdande roll, eftersom det är viktigt att tidigare forskningsresultat som föreligger i form av mjukvara och strukturerade språkresurser enkelt kan fås att ligga till grund för nya datorprogram eller språkresurser. Eftersom sådana datorprogram och språkresurser representerar så stora arbetsinsatser och därigenom betydande ekonomiska insatser, har just deras återanvändbarhet kommit alltmer i fokus bland språkteknologiforskare, vilket bland annat yttrar sig som ett livligt internationellt standardiseringsarbete, liksom en ökad medvetenhet om vikten av att så långt

2 Språkbanken en (inter)nationell forskningsinfrastruktur möjligt göra mjukvara och språkresurser fritt tillgängliga för andra forskare (och i idealfallet även för kommersiell produkt- och tjänsteutveckling). Språkbanken som forskningsinfrastruktur I praktiken bygger och underhåller alltså Språkbanken en tekniskt avancerad infrastruktur för vår egen och andras forskning, en del av vår verksamhet som med tiden blivit alltmer krävande. Detta beror till en del på att de system och resurser som utvecklas har blvit större och mer komplexa med tiden. Idag kan Språkbankens användare på webben tillgå olika typer av språklig information i en sammanlagd textmängd som omfattar närmare 10 miljarder ord (av vilka en knapp miljard ord består av historiskt textmaterial). Av den anledningen har vi under senare år satsat fokuserat på den infrastrukturella aspekten av Språkbankens verksamhet. Detta har varit möjligt tack vare en god samordning av systemutvecklingsinsatserna i ett antal interna och externa projekt. Det har i det sammanhanget varit ovärderligt att universitetets styrkeområdessatsning har inneburit en säkrad nästan hel systemutvecklartjänst under åren 2010 2015. Satsningen har gett resultat. Vi har gått från att ha nästan 10 olika kombinationer av sökgränssnitt, datalagringslösning och språklig uppmärkning för textkorpusar till en enhetlig korpusinfrastruktur, och detsamma gäller Språkbankens lexikonresurser. På liknande sätt har vi minskat antalet olika teknologier och dataformat som används för språkresurser och språkverktyg. Som en konsekvens av detta finns nu kompetensen att arbeta med varje infrastrukturkomponent hos mer än en individ, vilket gör infrastrukturen som helhet mindre sårbar. Vår nya korpusinfrastruktur Korp <http://spraakbanken.gu.se/korp/> är en riktig framgångssaga. Antalet användare av Korp har stigit stadigt sen den första versionen lanserades i oktober 2011 <http://spraakbanken.gu.se/swe/korp-release> och är nu uppe i omkring 4000 per månad. Eftersom Språkbanken fokuserar på språkteknologi och språkresurser för svenska är det naturligt att de flesta användarna finns vid universitet i Sverige och Finland, men vi har ett respektabelt antal besökare även från resten av Norden, från Europa i övrigt och från USA. Korp är fri mjukvara och den har installerats vid universiteten i Helsingfors (där den används framför allt för finska och finlandssvenska textkorpusar omfattande totalt över 8 miljarder ord; se <https://korp.csc.fi/>) och i Tromsø (där den används för flera samiska språk; se <http://gtweb.uit.no/korp/>). Även från andra håll har uttryckts intresse för att använda Korp. 1 En viktig anledning till detta är att Korp underhålls och utvecklas aktivt, vilket bland annat innebär att den som vill sätta upp en egen version av Korp kan få stöd och hjälp av Korputvecklarna i Språkbanken. Lars Borin och Markus Forsberg, föreståndare och biträdande föreståndare för Språkbanken, belönades 2014 med Erik Wellanders pris för framstående forskning inom språkvårdens område för deras arbete med det digitala språkverktyget Korp[, som] har givit språkforskare, språkvårdare och allmänhet starkt förbättrade möjligheter att både överblicka och specialundersöka dagens svenska. Under senare år har vi även sett en starkt ökad interaktion med omvärlden, i form av 1 Bl.a. Tartu (estniska), Colorado/Boulder (spanska), Köpenhamn (danska), Aten (grekiska) och Oslo (bokmål och nynorska).

Språkbanken en (inter)nationell forskningsinfrastruktur 3 forskningssamarbeten mellan ämnen på institutionen, med andra institutioner på fakulteten och andra fakulteter inom universitetet, med andra universitet i Sverige, Norden, Europa och övriga världen. Exempelvis har Svenska litteratursällskapet i Finland anlitat Språkbanken för tillgängliggörande av den finlandssvenska korpus man har samlat in under senare år (se <http://spraakbanken.gu.se/korp/#corpus=fisk>) och Språkbanken har anförtrotts den tekniska utvecklingen och underhållet av Litteraturbanken <http://litteraturbanken.se>, ett initiativ finansierat av Svenska Akademien och Vitterhetsakademien för digitalt tillgängliggörande av viktiga svenska litterära verk i pålitliga utgåvor för forskning, undervisning och folkbildning. Sådana samarbeten har bland annat inneburit nya typer av forskningsfrågor med åtföljande nya typer av språkteknologiverktyg och sätt att interagera med språkresurserna. Vi försöker möta dessa behov genom att göra nya infrastrukturkomponenter så modulära som möjligt, utifrån utförliga formella specifikationer. Det innebär att de elementära funktionella byggstenarna lätt kan kombineras på olika sätt och att det därmed är lättare att bygga nya (typer av) tillämpningar. Det blir även lättare att införa nya sorters språkliga bearbetningar liksom att förbättra existerande bearbetningar. Behovet av långsiktig basfinansiering Å ena sidan karakteriseras Språkbanken av en nära interaktion mellan forskning och infrastrukturutveckling, till den grad att det ibland kan vara svårt att avgöra vilket som är vilket. Å andra sidan är det helt klart att forskningens beroende av en fungerande språkresursinfrastruktur hela tiden växer och att den behövliga infrastrukturen också ständigt växer i volym och komplexitet. Idag hanterar vi detta huvudsakligen på två sätt: (1) genom anslag till enstaka riktade infrastruktursatsningar (från VR och RJ), 2 samt (2) genom att låta forskningsfinansieringen (fakultetsmedel och externa medel) bidra till utveckling och underhåll av den essentiella infrastrukturen. Speciellt det senare är otillfredsställande. För att vi ska kunna bedriva högkvalitativ forskning i språkteknologi och andra områden där språkresurser spelar en central roll, t.ex. humanistisk och samhällsvetenskaplig e-vetenskap (inklusive digital humaniora), är det angeläget att vi kan hålla igång en sofistikerad basinfrastruktur för denna forskning på mer långsiktig basis än vad som är möjligt med nuvarande modell. Med god planering vilket också fordrar en basorganisation kan riktade forsknings- och infrastrukturanslag användas för att höja nivån på befintlig infrastruktur, genom att det finns väldefinierade mekanismer för att föra tillbaka forskningsresultaten till infrastrukturen, men infrastrukturens aktuella nivå, dess basnivå, kräver alltid en långsiktig grundfinansiering för sitt upprätthållande. För närvarande går ungefär två heltider till utvecklingen av Korp och ytterligare cirka två heltider till Korps systerinfrastrukturer för lexikonhantering och språkinlärning (Karp och Lärka). Detta räcker till grundläggande underhåll, åtgärdande av programfel samt viss nyutveckling. Användarna av infrastrukturen inklusive vi själva efterfrågar förstås mycket mer. Korp och de andra delarna av Språkbankens infrastruktur stödjer för närvarande i första 2 Aktuella sådana är det svenska frasnätsprojektet (<http://http://spraakbanken.gu.se/swefn/>; VR/KFI, avslutas 2014), Koalaprojektet (<http://http://spraakbanken.gu.se/swe/koala>; RJ/Infrastruktur 2014 2016) och SWE-CLARIN (<http://http://spraakbanken.gu.se/swe/forskning/infrastruktur/ swe-clarin>; VR/RFI 2014 2018).

4 Språkbanken en (inter)nationell forskningsinfrastruktur hand språkteknologisk och språkvetenskaplig forskning och utbildning. En rejäl satsning på andra typer av forskning, exempelvis textbaserad digital humaniora och samhällsvetenskap något som vi Språkbanken är mycket intresserade av, inte minst genom vår koordinatorroll i SWE-CLARIN <http://sweclarin.se/> kräver mer utvecklingsinsatser. Sådana kan och måste naturligtvis även i framtiden till en del hanteras i form av riktade utvecklingsprojekt (typiskt externfinansierade), och några sådana pågår i Språkbanken. Den infrastrukturella grunden måste dock säkerställas genom en mer långsiktig basfinansiering. Det har stått klart utifrån de diskussioner som förts i universitetets infrastrukturgrupp liksom även utifrån den inventering av befintliga infrastrukturer vid universitetet som gjorts i det sammanhanget, att e-vetenskapsinfrastruktur i humanistiska och samhällsvetenskapliga discipliner är starkt beroende av tillgång till mänsklig expertis för uppbyggnad av databaser och andra forskningsdatamängder och utveckling av mjukvara för både grundläggande databearbetning och för specifika forskningsuppgifter, men framför allt för utveckling av datorverktyg och användargränssnitt som tillgängliggör datamängderna för forskning, samt i form av experter som kan bistå forskarna vid användningen av de ofta komplexa system det handlar om. Behovet av beräknings- och lagringskapacitet är visserligen mindre än i flera tekniska och naturvetenskapliga discipliner, men kan absolut inte negligeras. Språkbanken närmar sig nu gränsen för vad som är acceptabelt när det gäller svarstider i våra interaktiva applikationer. 3 Vi skaffar ny hårdvara i måttlig takt (med varierande finansiering, f.n. huvudsakligen styrkeområdesmedel), men med nuvarande tillväxt i datamängder och bearbetningskomplexitet är detta inte en hållbar modell på sikt. Vi ser framför oss en lösning där stabila produktionstjänster erbjuds genom att beräknings- och lagringskapacitet köps från SNIC (Swedish National Infrastructure for Computing, en enhet under Vetenskapsrådet), medan behoven för vår egen frontlinjeforskning i språkteknologi och utvecklingen av användargränssnitt, etc. fortfarande i huvudsak tillgodoses med lokala resurser. I slutet av detta dokument presenteras en budget för en basinfrastruktur i Språkbanken. Där ingår dock enbart lönekostnader, alltså den mänskliga delen av den föreslagna basinfrastrukturen (men inklusive system- och webbadministratörsfunktioner). Lönekostnaderna är schabloniserade och ges både med och utan OH-kostnader. Till dessa kostnader kommer alltså kostnader för lokal serverutrustning samt för utnyttjande av den nationella beräkningsinfrastrukturen. För de sistnämnda kostnaderna har vi just nu ingen beräkning. Dessutom får man räkna med resekostnader, t.ex. för deltagande i konferenser där språkteknologiresurser och -infrastruktur står i fokus (exempelvis LREC som avhålls vartannat år i Europa), liksom för deltagande i relevanta nationella och internationella nätverk. Lars Borin Föreståndare för Språkbanken Markus Forsberg Biträdande föreståndare för Språkbanken 3 Korps användargränssnitt startas nu med en delmängd av alla tillgängliga korpusar förvald (1,6 av 8,4 miljarder ord modernt textmaterial) samt med en av de mer tidskrävande visningsfunktionerna (den s.k. ordbilden) avslagen.

andel kostnad/år (tkr) kostnad+oh/år övergripande funktioner föreståndare 100% 935 1 183 samordnare 50% 364 460 sysadmin + webbadmin 100% 686 868 (delsumma) 250% 1 985 2 511 korpusinfrastruktur systemutvecklare 200% 1 288 1 630 forskningsingenjör 100% 727 920 expert 100% 831 (delsumma) 400% (kumulativ delsumma) 650% 1 052 2 847 3 603 4 832 6 114 annan forskningsinfrastruktur systemutvecklare 200% 1 288 1 630 forskningsingenjör 100% 727 920 expert 100% 831 1 052 (delsumma) 400% 2 847 3 603 totalt/år 1050% 7 678 9 717 funktion föreståndare samordnare forskningsingenjör systemutvecklare sys-/webbadmin expert kvalifikationer (seniorforskare) (forskare) (FD) (FK/FM) (forskare)