bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Relevanta dokument
Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Karp. Övningar Språkbankens höstworkshop oktober 2016

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

SwedishFrameNet (SweFN) Språkbanken University of Gothenburg

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Språkteknologi och Open Source

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Karp. Övningar Språkbankens höstworkshop oktober 2017

Språkrådet fånar sig rätt ofta vad gäller Nyordslistan.

Korp. Övningar Språkbankens höstworkshop oktober 2016

Sofie Johansson Kokkinakis

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Kort presentation av Korp, Sveriges nationalkorpus

SYMBERED. - en SYMbol-BEgrepps-REDigerare NUH. Presenterad av Mats Lundälv Författare: Katarina Mühlenbock & Mats Lundälv DART.

Flerordsenheter: Så många frågor, så få svar

Grundläggande textanalys. Joakim Nivre

Datorbaserade verktyg i humanistisk forskning

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Hur konstigt som helst!

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

LexicoNordica. Mannen är faderns mormor: Svenskt associationslexikon reinkarnerat. Kilde: LexicoNordica 12, 2005, s

Språkbanken en (inter)nationell forskningsinfrastruktur

Ett svenskt konstruktikon

Europeana Data Model vad, varför och hur

Mannen är faderns mormor: Svenskt associationslexikon reinkarnerat

Relationer, samordningar och retorik på Språkbanken. Swe-Clarin workshop 17 april 2015 Nina Tahmasebi

Tekniker för storskalig parsning

Det FRIA ORDET - ska det vara något - också för användare av AKK?

Tekniken bakom språket

Kan man vara dödare än dödast? En undersökning av konstruktionen [Adj]-are än [Adj]-ast

IRM som stöd för kunskapsutbyte i organisationer. Kristina Groth, KTH Pär Lannerö, Metamatrix

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

SICS Swedish Institute of Computer Science

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Din jävel! Vokativa nominalfraser med possessivpronomen

Ett svenskt konstruktikon Utgångspunkter och preliminära ramar

Språkteknologi. Språkteknologi

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

VEM TROR DU ATT DU ÄR? En konstruktionsgrammatisk undersökning. Tina From

eìã~åáëíáëâ~=ñ~âìäíéíéå= = = = c opi^d=======_n=numslmp= = OMMQJMRJOR= = = c~âìäíéíëå ãåçéåë=äéç~ã íéê

BLOGGING I SOCIALA MEDIER

Språk, datorer och textbehandling

GU-ISS Kämpa på! En undersökning av konstruktionen VERBA PÅ med fortsättningsbetydelse. Linnéa Börjesson

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

X som en gnu. GÖTEBORGS UNIVERSITET Institutionen för svenska språket. [adjektiv/verb] + [som] + [en] + [gnu] Linn Trieb

Öppna data på Gävle kommun

Tekniker för storskalig parsning

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Olle Olsson. SICS ( ) W3C ( ) ) BeyondIT Page 1

Stadieväxling Utmaningar för en nationell terminologi(in)samling

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Statens historiska museers digitaliseringsstrategi

Handlingsplan för jämställdhet och likabehandling Institutionen för svenska språket

Engineering Bases viktigaste egenskaper

Kungliga Tekniska Högskolan Patrik Dallmann

Grupper; Gruppindelningar; Vanliga inställningar för modul

Institutionen för svenska språket

Säkerställ er tillgänglighet Kommunikationsrapporteringsverktyg

Språkbanken. Årsrapport 2010

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Vägledning för webbutveckling. webbriktlinjer.se

FÖRBÄTTRADE FÖRUTSÄTTNINGAR FÖR REGISTERBASERAD FORSKNING. Magnus Eriksson Unit for Register-Based Research Swedish Research Council

1 (5) Yttrande. Utrikesdepartementet Enheten för internationell handelspolitik och EU:s inre marknad Stockholm

Språk, datorer och textbehandling

Tentamen Marco Kuhlmann

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

1 Vad är Versionshantering? 2 Git. 2.1 GitHub

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

RDA i Sverige Katarina Synnermark Olle Johansson RDA-redaktionen

AKADEMISKT SPRÅK: SPRÅKHANDLEDNING SOM EN RESURS FÖR INKLUDERANDE STUDIER ANN-MARIE ERIKSSON ENHETEN FÖR AKADEMISKT SPRÅK GÖTEBORGS UNIVERSITET

Systematiskt kvalitetsarbete i förskolan nya krav och utmaningar

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Norstedts första engelska ordbok Läraranvisning Textview. Verksnummer: 30399

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Lemma, lexem eller mittemellan?

Tentamen Del A. Marco Kuhlmann

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Innehålls förteckning

Garden Easy & House ReUse. Smart Regnvattenåtervinning

GU-ISS Korp 6 - Användarmanual

Inte billigt precis. En konstruktionsgrammatisk undersökning. Damir Dizdar

Semantisk web i biblioteket

Svensk nationell datatjänst, SND BAS Online

- Från tyst till högt - Anna Malmborg Martina Petrén

Nätet. Uppgiften. Nivå

Föreläsning 5 5DV086 - Programspråk

Semantik. Semantik och språkteknologi

SwePub. Samlad ingång till och redovisning av svensk vetenskaplig publicering

Det svenska konstruktikonet: språkpedagogiska tillämpningar och integrering med andra resurser

KORTFATTAD VETENSKAPLIG RAPPORT UTVIDGAD SÖKFUNKTIONALITET I K-SAMSÖK

Språk, datorer och textbehandling

Lite småkonstigt! GÖTEBORGS UNIVERSITET Institutionen för svenska språket. En konstruktionsgrammatisk undersökning av [lite små-adj]

Transkript:

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 lexikonresurser för språkteknologi kräver stora arbetsinsatser för sitt förverkligande resurserna blir användbarare om de är interoperabla än om de inte är det, även mellan språk en sorts mångsidigt användbar resurs är ett frasnät (framenet) frasnät finns för några få språk, men inte för svenska Språkbanken har startat ett svenskt frasnätsprojekt, SweFN++ i det försöker vi återanvända befintliga fria resurser så mycket som möjligt återanvändning av befintliga resurser SALDO i Språkbanken SALDO ( 73.000 betydelser) (navet i SweFN++) PAROLE ( 29.000 lemgram) (syntaktisk valens) SIMPLE ( 4000 betydelser) (semantisk valens) GLDB/SDB ( 60.000 ingångar) (semantisk valens) Dalin (1800-t.; 60,000 ingångar) (diakroni) (fornsvenska ( 25.000 ingångar) (diakroni)) ( 200 miljoner ord korpusar)

SALDO, 2 SALDO, 3 Dalins ordbok (1850 53) externa fria lexikonresurser SynLex folkets synonymordbok (för variabelt ordnät) svenska Wiktionary (för definitioner) Lund University Frame List (för frasnätsord) IDS/LWT ( ) svenskt ordnät (??)... och kanske andra

SynLex IDS (Intercontinental Dictionary Series) IDS, 2 LWT (Loanword Typology Project)

hopkoppling och harmonisering av lexikonresurser befintliga resurser i flera olika format, med olika sorters innehållskategorier minimimålet är två sorters gemensamma enheter: 1. betydelser 2. lemgram (och tillhörande böjningsmönster) vi vill kunna koppla ihop båda sorterna över alla resurser all information måste vara explicit och entydig vi vill använda SALDO:s identifierare stabila identifierare ( PID ) i SALDO finns id för: betydelser (grad..1) lemgram (grad..nn.1) ordklasser (nn) paradigm/böjningstabeller (nn_3u_film) SALDO-id:na är utformade för att vara: unika (inga andra id behövs, t.ex. som databasnycklar) atomära (inga inbyggda antaganden om betydelser/underbetydelser, etc.) (fast lemgram-id innehåller ordklassbeteckningen) användbara i Semantic Web-formalismer (RDF, OWL): de är välformade xml-namn läsbara av människor (underlättar arbetet med resurserna) hopkoppling av lexikonresurser George Kingsley Zipf (1902 1950) harmoniseringen av format kan i stor utsträckning göras med datorprogram hopkopplingen av resursernas innehåll vill vi också automatisera så mycket som möjligt men hur mycket är möjligt? hur mycket manuellt arbete kommer det att innebära? det är här Zipf kommer in i bilden (från Wikipedia)

Zipfs lag: rangordning frekvens Zipfs lag: rang kumulativ mängd (från <http://www.useit.com>) (från Wikipedia) betydelser per grundform i SALDO grundformer betydelser i SALDO

med Zipf... PAROLE SALDO mot framtiden och mot det förflutna hypotes: eftersom de flesta grundformerna bara bär en betydelse i våra lexikonresurser, kan vi mekaniskt koppla ihop dem med acceptabel precision för praktiska tillämpningar SIMPLE SALDO Dalin SALDO

SynLex SALDO SynLex SALDO, 2 SynLex SALDO, 3 SynLex SALDO, 4

SweFN-pilotprojekt SALDO-återkoppling personer: Lars Borin, Dana Dannélls, Markus Forsberg, Maria Toporowska Gronostaj, Annika Kjellandsson, Dimitrios Kokkinakis vi har använt existerande standardprogram för snabb start och utprövning av metodologi: Subversion, OpenOffice DB, emacs små specialprogram och -skript samt SALDO-webbtjänster (baserade på SALDO/FM-maskineriet) som klister återkoppling via automatgenererade webbsidor SALDO-återkoppling, 2 beroendekontroll gentemot SALDO

SweFN++ SweFN++, 2 SweFN++, 3 pågående och planerat arbete SALDO-städning (betydelser): nästan klart hopkoppling av SALDO och SynLex: påbörjad detaljerad inventering av fria lexikonresurser: gjord, men inte rapporterad pilotuppsättning frasnätsingångar: klar formatstandardisering (LMF/OWL) och innehållsharmonisering: våren 2010 länkning SALDO Dalin: våren 2010 Dalinmorfologi: våren 2010 medelsansökan: 10/2 (RJ), 30/3, 20/4 (VR)

metodologi utgå från engelska ramar, modifiera vid behov (samma som SFN) använd de befintliga resurserna så mycket som det går (beroende av god länkning) hitta nya enheter i svenska korpusar metodologi, 2 använd befintliga verktyg för att annotera korpusar så att bra exempelfraser blir lätta att hitta (jfr Deepdict): MALTparser kan ge (kandidater till) valensramar SALDO (och annan lexikalisk-semantisk information) kan ge (kandidater till) semantiska grupper av valensargument något som vi är särskilt intresserade av är att utöka mängden flerordingar i våra lexikonresurser metodologi, 3 om arbetet läggs upp på rätt sätt, med rätt datorstöd, så hoppas vi att ny information i lexikonet direkt kan komma korpussökningen till nytta metodologiska och andra forskningsfrågor: arbetsflöde och verktyg: hur bäst kombinera automatiska processer och manuellt arbete? semantiska roller och ramelement ramar och konstruktioner sammanfattning planerna för SweFN++ omfattar: återanvändning av fria lexikonresurser för svenska byggande av ett svenskt frasnät ovanpå resurserna skapandet av en diakronisk lexikonresurs utforskande av metodologi för att göra allt detta så arbetsbesparande som möjligt tillhandahållande av resultatet some en öppen resurs (open content/open source)