Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Relevanta dokument
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC

Språkbanken en (inter)nationell forskningsinfrastruktur

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Korp. Övningar Språkbankens höstworkshop oktober 2016

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Kort presentation av Korp, Sveriges nationalkorpus

Språk, datorer och textbehandling

Swe-Clarin. Daniel Brodén Forskningssamordnare Swe-Clarin Swe-Clarin på turné, Stockholms universitet 16 maj 2018

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Svensk nationell datatjänst, SND BAS Online

Digikult, Göteborg Digisam Johanna Berg

GU-ISS Korp 6 - Användarmanual

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

CESSDA-arbete i Sverige

Svensk nationell datatjänst en infrastruktur för forskningsdata inom samhällsvetenskap, humaniora och medicin

Wallenbergstiftelserna

textanalys på stor skala

Svensk Nationell Datatjänst

Språkbanken. Årsrapport 2010

729G09 Språkvetenskaplig databehandling

Infrastrukturer/områden som kan ansöka om bidrag 2017

Ett svenskt digitalt tidskriftsarkiv en förstudie kring de upphovsrättsliga frågorna

Att få pengar till stora infrastrukturer:

Riktad utlysning för databaser inom samhällsvetenskap och medicin med fokus på individdata. VR:s registerforskningsuppdrag

Tekniken bakom språket

Pengar till forskning Anslag och bidrag Rapporterad juni 2009

FORSKNINGSFINANSIERING VID GU OCH ANDRA LÄROSÄTEN I SVERIGE

Sveriges historia. En digital undervisningsresurs för skolor

Nordiska arkivdagar. Forskarnas röst och digitalt material

Öppen tillgång till forskningsdata Forskarsamhället i förändring

Vetenskapsrådets arbete med nationell infrastruktur

Genusstudier i Sverige

Pressrelease Artes Industriambassadör Mer realistiska skuggor i datorspel och virtual reality-applikationer

Informationsmöte Vetenskapsrådets utlysningar Maria Thuveson, avdelningen för forskningsfinansiering

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Digital samhällsbyggnadsprocess 2025

LIGHTer PhD network Uppstartsprojekt för doktorandnätverk och forskarskola

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

UU i korthet. Tre vetenskapsområden, nio fakulteter, 60 institutioner

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Företrädare för verksamheten. Mats Andrén Britt-Marie Karlsson Auður Magnúsdóttir Kenneth Nyberg Marcus Nordlund Ola Sigurdson Åsa Wengelin

Delrapport för Lärobjekt i öppna arkiv nya krav och spännande kopplingar

Synpunkter på Från ord till handling: på väg mot en nationell biblioteksstrategi - UTKAST

Open access.se underlag för styrgrupp den 16 september

Infrastruktur för språken i Sverige. Förslag till nationell språkinfrastruktur för det digitala samhället

SND Nätverksträff 1 juni Välkomna!

Framtiden är skriven i kod. Gabriel Modéus, Generalsekreterare, Swedsoft Diana Unander Nordle, Styrelseledamot, Swedsoft

VÄRLDSKULTURMUSEERNAS VÄG VIDARE

Swedish National Infrastructure for Computing Protokoll nr 6/2014 SNIC Sammanträdesdatum:

Vision KB:s syfte, vision och målbild

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Arbetslivsforskning 2018 och framåt. Forte, det nationella forskningsprogrammet och utmaningar inom arbetslivet

Statens historiska museers digitaliseringsstrategi

INDUSTRINYTTA PÅ VETENSKAPLIG GRUND

- nya möjligheter att göra forskningen tillgänglig. Vetenskaplig publicering och Open Access Karlstads universitet, 18 februari 2010

Språkteknologi. Språkteknologi

SUHF HfR 13 nov 2015 Maria Thuveson, chef avdelningen för forskningsfinansiering

IQ Samhällsbyggnad - föreningen för innovation och kvalitet inom samhällsbyggandet. Eva Schelin VD

LÖPANDE PROGRAMUTVÄRDERING ERUF TEMATISKT MÅL 1 RAMBÖLL MANAGEMENT CONSULTING 1 JUNI 2018

UoH strategisk samverkan SUHF

Uppdrag att driva en kompetenssatsning om digitaliseringens möjligheter i plan- och byggprocessen

Forskningsfinansiering i Sverige. Sedan 2001 finns fyra forskningsråd i Sverige: Vetenskapsrådet Forte Formas Vinnova

Karp. Övningar Språkbankens höstworkshop oktober 2016

Svensk nationell datatjänst, SND BAS Online

Riktlinjer och mål för digitaliseringsarbete

Forskningsbiblioteken som aktörer i publiceringsfrågor

Statistik över ansökningar till Vetenskapsrådet om projektbidrag, per kön och lärosäte

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

En samling fårskallar

SPRÅKTEKNOLOGIPROGRAMMET (STP)

BRA FORSKNING GER UTDELNING

Reumatikerförbundets Webbpolicy

Rutiner vid ansökningar till Marianne och Marcus Wallenbergs Stiftelse (MMW) och Stiftelsen Marcus och Amalia Wallenbergs Minnesfond (MAW)

Sofie Johansson Kokkinakis

SPRÅKTEKNOLOGIPROGRAMMET

Skrivelse från Riksantikvarieämbetet. Principer för hantering av digital fornminnesinformation

DiVA systemägarmöte. Stefan Andersson & Aina Svensson Uppsala 14 november 2013

Tid: , kl Plats: Riksarkivet Sammanträdesrummet Seminarierummet. Deltagare:

Torsdag 15 december 2016, kl i Allians, Samverkanshuset, plan 7

VRs syn på stöd till kvalitetsregisterforskning. VR uppdrag. Finansiering. Policy information utvärdering. Infrastruktur

Sammanfattning. 1. Inledning

Uppdrag och inbjudan att bidra till en nationell strategi för digitalisering, elektronisk tillgång och digitalt bevarande.

Föredragande borgarrådet Jan Valeskog anför följande.

Formpipe kundträff 2015 Platina som ECM plattform för digital samverkan inom forskningsfinansiering

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Vision och strategisk inriktning för Swepub

Nordens mest besökta science center. Öppet alla dagar

Digisams frågeschema för arbetet med myndighets/ institutionsvisa planer

Språkbanken under åren Verksamhet och budget. Reviderad version, 16 januari 2004

Digitaliseringsstrategi

SpråkVis - Språkteknologisk vismansrapport

Digisam Samordningssekretariatet för digitalisering, digitalt bevarande och tillgängliggörande av kulturarvet. Roll- och ansvarsfördelning

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

X som en gnu. GÖTEBORGS UNIVERSITET Institutionen för svenska språket. [adjektiv/verb] + [som] + [en] + [gnu] Linn Trieb

Transkript:

Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första svenska korpusen: Press-65 1972: professur i språkvetenskaplig databehandling 1975: Språkbanken ( Logoteket ) 1984: datalingvistikprogrammet 2000: GSLT (forskarskola i språkteknologi) 2004: pilotprojektet Litteraturbanken 2007: CLT (Centre for Language Technology) 2008: språkteknologi styrkeområde vid GU 2009: strategiska GU-medel till styrkeområdet språkteknologi 2011: svensk partner i META-NORD 2013: nationell samordnare för SWE-CLARIN Språkbanken vad, för vem, till vad? Språkbanken: http://spraakbanken.gu.se vad är Språkbanken? en nationell resurs sedan 1975 en FoU-enhet i språkteknologi (med nationella och internationella samarbeten, t.ex. EU-projekten META-NORD och CLARIN) fri tillgång till sökning i digitala, förädlade språkresurser (svenskt skriftspråk av alla genrer från alla tider): textkorpusar (enspråkiga och parallella) lexikonresurser (moderna och historiska) unik kompetens inom området svenska språkresurser (traditionellt) för vem och till vad? språkforskare (nordister och lingvister) lexikografer språkteknologiforskare utbildning allmänheten

Ansikten utåt 1: Korp Korp-ideologin Korp är Språkbankens korpusinfrastruktur Korp har en teknisk sida och en användarsida De tekniska lösningarna ska vara bra för användarna i stort och på lång sikt, vilket innebär en balansgång Att bygga solida tekniska lösningar som är generella tar ibland lång tid medan en särlösning för ett individuellt fall kan åstadkommas relativt snabbt rörelsen framåt är viktig tekniska lösningar så här: men inte så här: Den viktigaste tekniska lösningen i Korp och dess syskon är att korpussökmaskineriet är strikt separerat från de program som använder det, inklusive själva sökgränssnittet Vi talar om Korps bakända och dess framända Det betyder att man kan ha ett godtyckligt antal gränssnitt för olika grupper och olika behov och användaren är typiskt inte en människa, utan ett datorprogram

tekniska lösningar, 2 abstraktionsnivå/frihetsgrad Nästa viktiga tekniska lösning har att göra med ingångarna till bakändan Det gäller att hitta rätt frihetsgrad/abstraktionsnivå för då kan man blanda och ge på ett väldigt produktivt sätt Kanske man bäst tänker på bakändan som en samling funktioner som man kommer åt genom ett standardiserat gränssnitt. tekniska lösningar, 3 användarfunktioner När man börjat tänka så blir det naturligt att göra så många funktioner som möjligt tillgängliga på samma sätt inte bara söksystemet, utan även korpusimport- och -annoteringsfunktionerna Man tänker förhoppningsvis mer i termer av modularisering och återanvändning MEN detta arbetssätt kräver en mycket hög och solid teknisk kompetens Detta finns nu i Korp: KWIC-visning tidsuppmärkning och funktioner för att använda den annotationer: ordklass/msd, lemgram, dependenssyntax(, ordbetydelse) statistikfunktioner (tabell, tårtdiagram, trenddiagram) ordbild bortåt två miljarder ord moderna texter, och nästan en miljard ord äldre textmaterial (i Korplabbet) nedladdningsbara meningsmängder (slumpvis omkastade texter) möjlighet att lösenordsskydda korpusar och funktioner för användaradministration all mjukvara (bakända och framända) fri och nedladdningsbar för egen installation

Korp: korpusval Korp: KWIC-visning Korp: Trenddiagram Korp: Ordbild surfa (verb)

Korp: Ordbild förlust (subst.) Ansikten utåt 2: Korplabbet Ansikten utåt 3: Korps annoteringslabb Ansikten utåt 4: Karp

Ansikten utåt 5: Lärka pågående projekt: SweFN++ Finansierat av VR/RFI SweFN++: SweFN digital areallingvistik Finansierat av VR. Ett samarbete mellan Språkbanken/Göteborg, lingvistik/uppsala och lingvistik/mpi-eva, Leipzig

kunskapsbaserad kulturomik kulturomik: telefoner i Sverige Finansierat inom VR:s ramprogram Det digitaliserade samhället igår, idag, imorgon. Ett samarbete mellan Språkbanken/Göteborg, datavetenskap/chalmers och datavetenskap/lund. nya projekt: Koala nya projekt: MAÞiR Finansierat av RJ/infrastruktur Finansierat av Marcus och Amalia Wallenbergs stiftelse

nya projekt: distributionella metoder nya projekt: SWE-CLARIN Finansierat av VR CLARIN: ESFRI-förberedelsefas 2008-01 2011-06 9 svenska medlemmar (varav 2 partners) CLARIN ERIC startade 29/2 2012 med 9 medlemmar SWE-CLARIN-ansökan beviljad av VR 2013. Mål för SWE-CLARIN: 1. bilda en svensk nod i CLARIN ERIC: Göteborgs universitet (Språkbanken, SND) KTH (TMH) Linköpings universitet (NLP-lab) Lunds universitet (Humanistlaboratoriet) Stockholms universitet (datorlingvistik) Uppsala universitet (datorlingvistik) Språkrådet DigiSam 2. bygga en basinfrastruktur för CLARIN i Sverige CLARIN-conceptet digital spetsforskningspotential e-vetenskap i form av språkteknologi som forskningsverktyg för discipliner där text (och tal) är primärdata: humaniora samhällsvetenskap (vissa sorters) medicin CLARINs betydelse växer i takt med digitaliseringen av kulturarvet och den elektroniska kommunikationens utbredning Precis som vid gruvbrytning, kräver stora mängder informationsglest digitalt text- och talmaterial effektiv teknik för sökning, korrelering och korsindexering i det språkliga innehållet även mellan språk för att forskningen ska få ut användbara primärdata ur det.

framtidsplaner tack! Men bara som man kan fråga får man svar, så planerna för Språkbanken handlar om att kunna erbjuda nya sorters svar: korpusjämförelser namntaggning textmetadata syntaktisk sökning sökvisualisering (t.ex. trender, kartor) smartare träffgruppering, t.ex. visningssortering efter semantisk kontext bättre syntaxanalys annotering av historiska material talspråk och ljud även annan forskning än språkvetenskap korpvarieteter (användningar och användare), men även andra gränssnitt (med gemensamma nättjänster i bakändan) Vi också gärna veta vilka frågor forskare och andra vill kunna ställa till materialet.