Språkbanken en (inter)nationell forskningsinfrastruktur 1 Språkbanken en (inter)nationell forskningsinfrastruktur Språkbanken som forskningsenhet Språkbanken <http://spraakbanken.gu.se> inrättades 1975 som en nationell forskningsenhet placerad vid Göteborgs universitets humanistiska fakultet. Språkbankens uppdrag blev och är fortfarande att samla in, utveckla och tillgängliggöra språkresurser (till exempel korpusar (stora textsamlingar), lexikon, samt språkteknologiska verktyg för att utveckla och använda övriga resurser) åt forskare och allmänheten. Språkbanken var ett direkt resultat av Sture Alléns pionjärinsatser inom svensk korpuslingvistik under 1960-talet, vilka ledde fram till Press-65, en av de första stora elektroniska textkorpusarna för ett annat språk än engelska. Språkbanken har utvecklats till en nationellt och internationellt erkänd forskningsenhet, med en unik kompetens vad gäller svenska textkorpusar, parallellkorpusar, svenska elektroniska lexikonresurser samt språkteknologiska verktyg för att bearbeta, annotera och visa upp textkorpusar. Huvuddelen av materialet är modernt, men ambitionen är att resurserna ska avspegla hela den skrivna svenskans historia från medeltiden till modern tid med alla dess genrer. Resurserna används flitigt av forskare i och utanför Sverige, både i empirisk forskning och i undervisning i svenska, nordiska språk och kontrastiv eller typologisk lingvistik. De används också mycket av allmänheten, eftersom huvuddelen av resurserna är fritt åtkomliga för sökning via webbgränssnitt. Korpusmaterialen presenteras i huvudsak genom ett webbaserat sökgränssnitt (Korp; se nedan), där sökträffarna ges i form av konkordansrader. Denna presentationsform föredras av många språkvetenskapliga forskare. I ökande utsträckning kan vi också tillhandahålla språkliga data för nedladdning, något som ofta krävs för språkteknologisk forskning. Språkbankens lexikonresurser är sökbara online och för det mesta även fritt nedladdningsbara i standardiserade format för alla typer av användning. Språkbankens forskning hör hemma inom huvudområdet språkteknologi, som utvecklats till ett av Göteborgs universitets styrkeområden, där Språkbanken utgör en vital del av centrumbildningen Centre for Language Technology <http://www.clt.gu.se>. Språkteknologi handlar om hur man kan få datorer att hantera mänskligt språk i alla dess former, och Språkbankens forskning handlar mer specifikt om att utveckla språkteknologi för svenska språket genom tiderna. Det är ett karakteristiskt drag för språkteknologiforskningen att den med nödvändighet bedrivs i nära växelverkan med konkreta tillämpningar. Det bästa sättet att testa hypoteser inom vårt område är oftast att konstruera ett datorprogram eller en språkresurs som ska användas av ett datorprogram. All forskning är kumulativ och bygger på reproducerbarhet. När det gäller språkteknologiforskning tar sig den principen ytterst konkret uttryck: Återanvändbarhet spelar här en mycket framträdande roll, eftersom det är viktigt att tidigare forskningsresultat som föreligger i form av mjukvara och strukturerade språkresurser enkelt kan fås att ligga till grund för nya datorprogram eller språkresurser. Eftersom sådana datorprogram och språkresurser representerar så stora arbetsinsatser och därigenom betydande ekonomiska insatser, har just deras återanvändbarhet kommit alltmer i fokus bland språkteknologiforskare, vilket bland annat yttrar sig som ett livligt internationellt standardiseringsarbete, liksom en ökad medvetenhet om vikten av att så långt
2 Språkbanken en (inter)nationell forskningsinfrastruktur möjligt göra mjukvara och språkresurser fritt tillgängliga för andra forskare (och i idealfallet även för kommersiell produkt- och tjänsteutveckling). Språkbanken som forskningsinfrastruktur I praktiken bygger och underhåller alltså Språkbanken en tekniskt avancerad infrastruktur för vår egen och andras forskning, en del av vår verksamhet som med tiden blivit alltmer krävande. Detta beror till en del på att de system och resurser som utvecklas har blvit större och mer komplexa med tiden. Idag kan Språkbankens användare på webben tillgå olika typer av språklig information i en sammanlagd textmängd som omfattar närmare 10 miljarder ord (av vilka en knapp miljard ord består av historiskt textmaterial). Av den anledningen har vi under senare år satsat fokuserat på den infrastrukturella aspekten av Språkbankens verksamhet. Detta har varit möjligt tack vare en god samordning av systemutvecklingsinsatserna i ett antal interna och externa projekt. Det har i det sammanhanget varit ovärderligt att universitetets styrkeområdessatsning har inneburit en säkrad nästan hel systemutvecklartjänst under åren 2010 2015. Satsningen har gett resultat. Vi har gått från att ha nästan 10 olika kombinationer av sökgränssnitt, datalagringslösning och språklig uppmärkning för textkorpusar till en enhetlig korpusinfrastruktur, och detsamma gäller Språkbankens lexikonresurser. På liknande sätt har vi minskat antalet olika teknologier och dataformat som används för språkresurser och språkverktyg. Som en konsekvens av detta finns nu kompetensen att arbeta med varje infrastrukturkomponent hos mer än en individ, vilket gör infrastrukturen som helhet mindre sårbar. Vår nya korpusinfrastruktur Korp <http://spraakbanken.gu.se/korp/> är en riktig framgångssaga. Antalet användare av Korp har stigit stadigt sen den första versionen lanserades i oktober 2011 <http://spraakbanken.gu.se/swe/korp-release> och är nu uppe i omkring 4000 per månad. Eftersom Språkbanken fokuserar på språkteknologi och språkresurser för svenska är det naturligt att de flesta användarna finns vid universitet i Sverige och Finland, men vi har ett respektabelt antal besökare även från resten av Norden, från Europa i övrigt och från USA. Korp är fri mjukvara och den har installerats vid universiteten i Helsingfors (där den används framför allt för finska och finlandssvenska textkorpusar omfattande totalt över 8 miljarder ord; se <https://korp.csc.fi/>) och i Tromsø (där den används för flera samiska språk; se <http://gtweb.uit.no/korp/>). Även från andra håll har uttryckts intresse för att använda Korp. 1 En viktig anledning till detta är att Korp underhålls och utvecklas aktivt, vilket bland annat innebär att den som vill sätta upp en egen version av Korp kan få stöd och hjälp av Korputvecklarna i Språkbanken. Lars Borin och Markus Forsberg, föreståndare och biträdande föreståndare för Språkbanken, belönades 2014 med Erik Wellanders pris för framstående forskning inom språkvårdens område för deras arbete med det digitala språkverktyget Korp[, som] har givit språkforskare, språkvårdare och allmänhet starkt förbättrade möjligheter att både överblicka och specialundersöka dagens svenska. Under senare år har vi även sett en starkt ökad interaktion med omvärlden, i form av 1 Bl.a. Tartu (estniska), Colorado/Boulder (spanska), Köpenhamn (danska), Aten (grekiska) och Oslo (bokmål och nynorska).
Språkbanken en (inter)nationell forskningsinfrastruktur 3 forskningssamarbeten mellan ämnen på institutionen, med andra institutioner på fakulteten och andra fakulteter inom universitetet, med andra universitet i Sverige, Norden, Europa och övriga världen. Exempelvis har Svenska litteratursällskapet i Finland anlitat Språkbanken för tillgängliggörande av den finlandssvenska korpus man har samlat in under senare år (se <http://spraakbanken.gu.se/korp/#corpus=fisk>) och Språkbanken har anförtrotts den tekniska utvecklingen och underhållet av Litteraturbanken <http://litteraturbanken.se>, ett initiativ finansierat av Svenska Akademien och Vitterhetsakademien för digitalt tillgängliggörande av viktiga svenska litterära verk i pålitliga utgåvor för forskning, undervisning och folkbildning. Sådana samarbeten har bland annat inneburit nya typer av forskningsfrågor med åtföljande nya typer av språkteknologiverktyg och sätt att interagera med språkresurserna. Vi försöker möta dessa behov genom att göra nya infrastrukturkomponenter så modulära som möjligt, utifrån utförliga formella specifikationer. Det innebär att de elementära funktionella byggstenarna lätt kan kombineras på olika sätt och att det därmed är lättare att bygga nya (typer av) tillämpningar. Det blir även lättare att införa nya sorters språkliga bearbetningar liksom att förbättra existerande bearbetningar. Behovet av långsiktig basfinansiering Å ena sidan karakteriseras Språkbanken av en nära interaktion mellan forskning och infrastrukturutveckling, till den grad att det ibland kan vara svårt att avgöra vilket som är vilket. Å andra sidan är det helt klart att forskningens beroende av en fungerande språkresursinfrastruktur hela tiden växer och att den behövliga infrastrukturen också ständigt växer i volym och komplexitet. Idag hanterar vi detta huvudsakligen på två sätt: (1) genom anslag till enstaka riktade infrastruktursatsningar (från VR och RJ), 2 samt (2) genom att låta forskningsfinansieringen (fakultetsmedel och externa medel) bidra till utveckling och underhåll av den essentiella infrastrukturen. Speciellt det senare är otillfredsställande. För att vi ska kunna bedriva högkvalitativ forskning i språkteknologi och andra områden där språkresurser spelar en central roll, t.ex. humanistisk och samhällsvetenskaplig e-vetenskap (inklusive digital humaniora), är det angeläget att vi kan hålla igång en sofistikerad basinfrastruktur för denna forskning på mer långsiktig basis än vad som är möjligt med nuvarande modell. Med god planering vilket också fordrar en basorganisation kan riktade forsknings- och infrastrukturanslag användas för att höja nivån på befintlig infrastruktur, genom att det finns väldefinierade mekanismer för att föra tillbaka forskningsresultaten till infrastrukturen, men infrastrukturens aktuella nivå, dess basnivå, kräver alltid en långsiktig grundfinansiering för sitt upprätthållande. För närvarande går ungefär två heltider till utvecklingen av Korp och ytterligare cirka två heltider till Korps systerinfrastrukturer för lexikonhantering och språkinlärning (Karp och Lärka). Detta räcker till grundläggande underhåll, åtgärdande av programfel samt viss nyutveckling. Användarna av infrastrukturen inklusive vi själva efterfrågar förstås mycket mer. Korp och de andra delarna av Språkbankens infrastruktur stödjer för närvarande i första 2 Aktuella sådana är det svenska frasnätsprojektet (<http://http://spraakbanken.gu.se/swefn/>; VR/KFI, avslutas 2014), Koalaprojektet (<http://http://spraakbanken.gu.se/swe/koala>; RJ/Infrastruktur 2014 2016) och SWE-CLARIN (<http://http://spraakbanken.gu.se/swe/forskning/infrastruktur/ swe-clarin>; VR/RFI 2014 2018).
4 Språkbanken en (inter)nationell forskningsinfrastruktur hand språkteknologisk och språkvetenskaplig forskning och utbildning. En rejäl satsning på andra typer av forskning, exempelvis textbaserad digital humaniora och samhällsvetenskap något som vi Språkbanken är mycket intresserade av, inte minst genom vår koordinatorroll i SWE-CLARIN <http://sweclarin.se/> kräver mer utvecklingsinsatser. Sådana kan och måste naturligtvis även i framtiden till en del hanteras i form av riktade utvecklingsprojekt (typiskt externfinansierade), och några sådana pågår i Språkbanken. Den infrastrukturella grunden måste dock säkerställas genom en mer långsiktig basfinansiering. Det har stått klart utifrån de diskussioner som förts i universitetets infrastrukturgrupp liksom även utifrån den inventering av befintliga infrastrukturer vid universitetet som gjorts i det sammanhanget, att e-vetenskapsinfrastruktur i humanistiska och samhällsvetenskapliga discipliner är starkt beroende av tillgång till mänsklig expertis för uppbyggnad av databaser och andra forskningsdatamängder och utveckling av mjukvara för både grundläggande databearbetning och för specifika forskningsuppgifter, men framför allt för utveckling av datorverktyg och användargränssnitt som tillgängliggör datamängderna för forskning, samt i form av experter som kan bistå forskarna vid användningen av de ofta komplexa system det handlar om. Behovet av beräknings- och lagringskapacitet är visserligen mindre än i flera tekniska och naturvetenskapliga discipliner, men kan absolut inte negligeras. Språkbanken närmar sig nu gränsen för vad som är acceptabelt när det gäller svarstider i våra interaktiva applikationer. 3 Vi skaffar ny hårdvara i måttlig takt (med varierande finansiering, f.n. huvudsakligen styrkeområdesmedel), men med nuvarande tillväxt i datamängder och bearbetningskomplexitet är detta inte en hållbar modell på sikt. Vi ser framför oss en lösning där stabila produktionstjänster erbjuds genom att beräknings- och lagringskapacitet köps från SNIC (Swedish National Infrastructure for Computing, en enhet under Vetenskapsrådet), medan behoven för vår egen frontlinjeforskning i språkteknologi och utvecklingen av användargränssnitt, etc. fortfarande i huvudsak tillgodoses med lokala resurser. I slutet av detta dokument presenteras en budget för en basinfrastruktur i Språkbanken. Där ingår dock enbart lönekostnader, alltså den mänskliga delen av den föreslagna basinfrastrukturen (men inklusive system- och webbadministratörsfunktioner). Lönekostnaderna är schabloniserade och ges både med och utan OH-kostnader. Till dessa kostnader kommer alltså kostnader för lokal serverutrustning samt för utnyttjande av den nationella beräkningsinfrastrukturen. För de sistnämnda kostnaderna har vi just nu ingen beräkning. Dessutom får man räkna med resekostnader, t.ex. för deltagande i konferenser där språkteknologiresurser och -infrastruktur står i fokus (exempelvis LREC som avhålls vartannat år i Europa), liksom för deltagande i relevanta nationella och internationella nätverk. Lars Borin Föreståndare för Språkbanken Markus Forsberg Biträdande föreståndare för Språkbanken 3 Korps användargränssnitt startas nu med en delmängd av alla tillgängliga korpusar förvald (1,6 av 8,4 miljarder ord modernt textmaterial) samt med en av de mer tidskrävande visningsfunktionerna (den s.k. ordbilden) avslagen.
andel kostnad/år (tkr) kostnad+oh/år övergripande funktioner föreståndare 100% 935 1 183 samordnare 50% 364 460 sysadmin + webbadmin 100% 686 868 (delsumma) 250% 1 985 2 511 korpusinfrastruktur systemutvecklare 200% 1 288 1 630 forskningsingenjör 100% 727 920 expert 100% 831 (delsumma) 400% (kumulativ delsumma) 650% 1 052 2 847 3 603 4 832 6 114 annan forskningsinfrastruktur systemutvecklare 200% 1 288 1 630 forskningsingenjör 100% 727 920 expert 100% 831 1 052 (delsumma) 400% 2 847 3 603 totalt/år 1050% 7 678 9 717 funktion föreståndare samordnare forskningsingenjör systemutvecklare sys-/webbadmin expert kvalifikationer (seniorforskare) (forskare) (FD) (FK/FM) (forskare)