Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Relevanta dokument
bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Karp. Övningar Språkbankens höstworkshop oktober 2016

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språkteknologi och Open Source

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

SwedishFrameNet (SweFN) Språkbanken University of Gothenburg

Sofie Johansson Kokkinakis

Karp. Övningar Språkbankens höstworkshop oktober 2017

Korp. Övningar Språkbankens höstworkshop oktober 2016

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Språkbanken en (inter)nationell forskningsinfrastruktur

Ett svenskt konstruktikon

Grundläggande textanalys. Joakim Nivre

Relationer, samordningar och retorik på Språkbanken. Swe-Clarin workshop 17 april 2015 Nina Tahmasebi

Tekniker för storskalig parsning

Datorbaserade verktyg i humanistisk forskning

SYMBERED. - en SYMbol-BEgrepps-REDigerare NUH. Presenterad av Mats Lundälv Författare: Katarina Mühlenbock & Mats Lundälv DART.

Europeana Data Model vad, varför och hur

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Språkteknologi. Språkteknologi

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Ett svenskt konstruktikon Utgångspunkter och preliminära ramar

Det FRIA ORDET - ska det vara något - också för användare av AKK?

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Kan man vara dödare än dödast? En undersökning av konstruktionen [Adj]-are än [Adj]-ast

Tekniken bakom språket

Kort presentation av Korp, Sveriges nationalkorpus

Öppna data på Gävle kommun

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Tekniker för storskalig parsning

Språkrådet fånar sig rätt ofta vad gäller Nyordslistan.

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Engineering Bases viktigaste egenskaper

Din jävel! Vokativa nominalfraser med possessivpronomen

Kungliga Tekniska Högskolan Patrik Dallmann

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Grupper; Gruppindelningar; Vanliga inställningar för modul

Säkerställ er tillgänglighet Kommunikationsrapporteringsverktyg

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Hur konstigt som helst!

FÖRBÄTTRADE FÖRUTSÄTTNINGAR FÖR REGISTERBASERAD FORSKNING. Magnus Eriksson Unit for Register-Based Research Swedish Research Council

1 (5) Yttrande. Utrikesdepartementet Enheten för internationell handelspolitik och EU:s inre marknad Stockholm

Språk, datorer och textbehandling

Tentamen Marco Kuhlmann

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

1 Vad är Versionshantering? 2 Git. 2.1 GitHub

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

AKADEMISKT SPRÅK: SPRÅKHANDLEDNING SOM EN RESURS FÖR INKLUDERANDE STUDIER ANN-MARIE ERIKSSON ENHETEN FÖR AKADEMISKT SPRÅK GÖTEBORGS UNIVERSITET

RDA i Sverige Katarina Synnermark Olle Johansson RDA-redaktionen

Flerordsenheter: Så många frågor, så få svar

Systematiskt kvalitetsarbete i förskolan nya krav och utmaningar

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Stadieväxling Utmaningar för en nationell terminologi(in)samling

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Tentamen Del A. Marco Kuhlmann

X som en gnu. GÖTEBORGS UNIVERSITET Institutionen för svenska språket. [adjektiv/verb] + [som] + [en] + [gnu] Linn Trieb

Innehålls förteckning

Garden Easy & House ReUse. Smart Regnvattenåtervinning

Statens historiska museers digitaliseringsstrategi

Svensk nationell datatjänst, SND BAS Online

- Från tyst till högt - Anna Malmborg Martina Petrén

IRM som stöd för kunskapsutbyte i organisationer. Kristina Groth, KTH Pär Lannerö, Metamatrix

Semantik. Semantik och språkteknologi

UPPFÖLJNING AV VERKSAMHETSPLAN 2013

Nationell informationsstruktur och Snomed CT ökar patientsäkerheten och minskar administrationen. Anna Aldehag Med dr, enhetschef

Språk, datorer och textbehandling

ClaroDictionary med tal. ClaroDictionary utan tal

Språk, datorer och textbehandling

e-sens erfarenheter av utländska e-legitimationer

ETT STARKT OCH SAMMANHÅLLET JÄRFÄLLA. Vår vision för integrationsarbetet

Handlingsplan för jämställdhet och likabehandling Institutionen för svenska språket

eìã~åáëíáëâ~=ñ~âìäíéíéå= = = = c opi^d=======_n=numslmp= = OMMQJMRJOR= = = c~âìäíéíëå ãåçéåë=äéç~ã íéê

Vägledning för webbutveckling. webbriktlinjer.se

ÄFRD04, Franska 3, 30 högskolepoäng French 3, 30 credits Grundnivå / First Cycle

Språk, datorer och textbehandling

Perspektiv på lexikografi, grammatik och språkpolitik i Norden

Forskningsfinansiärers perspektiv på open access - problem och möjligheter? Stiftelsen Riksbankens Jubileumsfond Britta Lövgren

Suffixet som kom smygandes tillbaka

Symbolspråk som alternativa och kompletterande kommunikationsmedel

Varför är logik viktig för datavetare?

Programmera Avant 5 med PC mjukvara

Sanning och lögnare. Rasmus Blanck VT2017. FT1200, LC1510 och LGFI52

Statistisk grammatikgranskning

Språkpsykologi/psykolingvistik

Introduktion till formella metoder Programmeringsmetodik 1. Inledning

LexicoNordica. Mannen är faderns mormor: Svenskt associationslexikon reinkarnerat. Kilde: LexicoNordica 12, 2005, s

Introduktion till språkteknologi. Datorstöd för språkgranskning

Lexikon: ordbildning och lexikalisering

VETENSKAPSRÅDETS UPPDRAG: SAMORDNA DET NATIONELLA ARBETET MED ATT INFÖRA ÖPPEN TILLGÅNG TILL FORSKNINGSDATA

Kartläggning och bedömning av nyanlända elevers kunskaper och språkutveckling

Vad är ett examensarbete?

Föreläsning 2: Datainsamling - Observation, enkät, intervju. Att läsa: Kapitel 2 och 3 i Stone et al.: User Interface design and evaluation

Transkript:

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010

bakgrund och förutsättningar lexikonresurser för språkteknologi kräver stora arbetsinsatser för sitt förverkligande resurserna blir användbarare om de är interoperabla än om de inte är det, även mellan språk en sorts mångsidigt användbar resurs är ett frasnät (framenet) frasnät finns för några få språk, men inte för svenska Språkbanken har startat ett svenskt frasnätsprojekt, SweFN++ i det försöker vi återanvända befintliga fria resurser så mycket som möjligt

återanvändning av befintliga resurser i Språkbanken SALDO ( 73.000 betydelser) (navet i SweFN++) PAROLE ( 29.000 lemgram) (syntaktisk valens) SIMPLE ( 4000 betydelser) (semantisk valens) GLDB/SDB ( 60.000 ingångar) (semantisk valens) Dalin (1800-t.; 60,000 ingångar) (diakroni) (fornsvenska ( 25.000 ingångar) (diakroni)) ( 200 miljoner ord korpusar)

SALDO

SALDO, 2

SALDO, 3

Dalins ordbok (1850 53)

externa fria lexikonresurser SynLex folkets synonymordbok (för variabelt ordnät) svenska Wiktionary (för definitioner) Lund University Frame List (för frasnätsord) IDS/LWT ( ) svenskt ordnät (??)... och kanske andra

SynLex

IDS (Intercontinental Dictionary Series)

IDS, 2

LWT (Loanword Typology Project)

hopkoppling och harmonisering av lexikonresurser befintliga resurser i flera olika format, med olika sorters innehållskategorier minimimålet är två sorters gemensamma enheter: 1. betydelser 2. lemgram (och tillhörande böjningsmönster) vi vill kunna koppla ihop båda sorterna över alla resurser all information måste vara explicit och entydig vi vill använda SALDO:s identifierare

stabila identifierare ( PID ) i SALDO finns id för: betydelser (grad..1) lemgram (grad..nn.1) ordklasser (nn) paradigm/böjningstabeller (nn_3u_film) SALDO-id:na är utformade för att vara: unika (inga andra id behövs, t.ex. som databasnycklar) atomära (inga inbyggda antaganden om betydelser/underbetydelser, etc.) (fast lemgram-id innehåller ordklassbeteckningen) användbara i Semantic Web-formalismer (RDF, OWL): de är välformade xml-namn läsbara av människor (underlättar arbetet med resurserna)

hopkoppling av lexikonresurser harmoniseringen av format kan i stor utsträckning göras med datorprogram hopkopplingen av resursernas innehåll vill vi också automatisera så mycket som möjligt men hur mycket är möjligt? hur mycket manuellt arbete kommer det att innebära? det är här Zipf kommer in i bilden

George Kingsley Zipf (1902 1950) (från Wikipedia)

Zipfs lag: rangordning frekvens (från <http://www.useit.com>)

Zipfs lag: rang kumulativ mängd (från Wikipedia)

betydelser per grundform i SALDO

grundformer betydelser i SALDO

med Zipf... mot framtiden och mot det förflutna hypotes: eftersom de flesta grundformerna bara bär en betydelse i våra lexikonresurser, kan vi mekaniskt koppla ihop dem med acceptabel precision för praktiska tillämpningar

PAROLE SALDO

SIMPLE SALDO

Dalin SALDO

SynLex SALDO

SynLex SALDO, 2

SynLex SALDO, 3

SynLex SALDO, 4

SweFN-pilotprojekt personer: Lars Borin, Dana Dannélls, Markus Forsberg, Maria Toporowska Gronostaj, Annika Kjellandsson, Dimitrios Kokkinakis vi har använt existerande standardprogram för snabb start och utprövning av metodologi: Subversion, OpenOffice DB, emacs små specialprogram och -skript samt SALDO-webbtjänster (baserade på SALDO/FM-maskineriet) som klister återkoppling via automatgenererade webbsidor

SALDO-återkoppling

SALDO-återkoppling, 2

beroendekontroll gentemot SALDO

SweFN++

SweFN++, 2

SweFN++, 3

pågående och planerat arbete SALDO-städning (betydelser): nästan klart hopkoppling av SALDO och SynLex: påbörjad detaljerad inventering av fria lexikonresurser: gjord, men inte rapporterad pilotuppsättning frasnätsingångar: klar formatstandardisering (LMF/OWL) och innehållsharmonisering: våren 2010 länkning SALDO Dalin: våren 2010 Dalinmorfologi: våren 2010 medelsansökan: 10/2 (RJ), 30/3, 20/4 (VR)

metodologi utgå från engelska ramar, modifiera vid behov (samma som SFN) använd de befintliga resurserna så mycket som det går (beroende av god länkning) hitta nya enheter i svenska korpusar

metodologi, 2 använd befintliga verktyg för att annotera korpusar så att bra exempelfraser blir lätta att hitta (jfr Deepdict): MALTparser kan ge (kandidater till) valensramar SALDO (och annan lexikalisk-semantisk information) kan ge (kandidater till) semantiska grupper av valensargument något som vi är särskilt intresserade av är att utöka mängden flerordingar i våra lexikonresurser

metodologi, 3 om arbetet läggs upp på rätt sätt, med rätt datorstöd, så hoppas vi att ny information i lexikonet direkt kan komma korpussökningen till nytta metodologiska och andra forskningsfrågor: arbetsflöde och verktyg: hur bäst kombinera automatiska processer och manuellt arbete? semantiska roller och ramelement ramar och konstruktioner

sammanfattning planerna för SweFN++ omfattar: återanvändning av fria lexikonresurser för svenska byggande av ett svenskt frasnät ovanpå resurserna skapandet av en diakronisk lexikonresurs utforskande av metodologi för att göra allt detta så arbetsbesparande som möjligt tillhandahållande av resultatet some en öppen resurs (open content/open source)