SwedishFrameNet (SweFN) Språkbanken University of Gothenburg

Relevanta dokument
bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Tentamen Marco Kuhlmann

Karp. Övningar Språkbankens höstworkshop oktober 2016

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Lexikon: ordbildning och lexikalisering

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

MEIJERBERGS ARKIV SVENSK ORDFORSKNING GÖTEBORG 2014 FÖR UTGIVET AV STYRELSEN FÖR MEIJERBERGS INSTITUT VID GÖTEBORGS UNIVERSITET GENOM BO RALPH

Grammatisk teori III Praktisk analys

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Publikationstyp Kapitel i bok, del av antologi

NKRR. Regelskrivning i praktiken

Om uppsatsmallen vid GIH

Publikationstyp Konferensbidrag

Flerordsenheter: Så många frågor, så få svar

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Starta MySQL Query Browser

EVALD manual. Evald version

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Grammatik för språkteknologer

Din jävel! Vokativa nominalfraser med possessivpronomen

RoboLinguistics. Ett textförståelseprogram. Henrik Palmér, d01hp

Introduktion till Winbas. excel till Winbas

Svensk nationell datatjänst, SND BAS Online

7. Sammanfattande diskussion

Lathund för studenter

Lathund till PsycINFO (OVID)

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Kopplingar via datalänk från Winbas till Excel samt Pivottabell 1 (13)

Lingvistiskt uppmärkt text

Manual Jourläkarschema Alingsås - Version 1.0

Lathund för rapporter och statistik i Synergi

Ladok. Resultatrapportering på prov RS01. Resultatrapportering på prov RS01 1. Personliga inställningar 2. Arbetsgång vid rapportering i RS01 2

Hantera informationspaket i system för bevarande

Introduktion till MySQL

Labbrapport: HTML och CSS

Kataloghantering i Ariba kompletterande information om Partial Items & Parametric Data

Syfte Syftet med den här laborationen är att du ska lära dig använda några grundfunktioner i Microsoft Excel.

Introduktion till frågespråket SQL (v0.91)

Workshop IBA internet based assessment

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Lär känna MS SQL 2008 / Övning. Observera. Tips. Förberedelse

RDA Kapitel 10. RDA 10.2 Släktens namn Kärnelement. Föredraget namn är ett kärnelement. Variantnamn är valfria.

Excel-guide. Introduktion

Introduktion Schenker-BTL AB, Stab IT Beskrivning över informationsintegreringmed Schenker, metodbeskrivning version 1.

Så här registrerar du dina titlar

Användarhandledning för koppling av dokument

Mikromarc 2 Meddelandecenter

Internationell klassifikation av funktionstillstånd, funktionshinder och hälsa (ICF) Del 3 Mappningsregler

Arg-administratörens guide till Umbraco v 1.2.1

Sofie Johansson Kokkinakis

Lathund för validering av avhandlingar i LUCRIS

Så här använder du termbanken

Release Notes. Vad är nytt i Easy Planning Nyheter

ADMINISTRERA AUTODELIVERY

Örebro universitet. Elektronisk arkivering/publicering av självständiga arbeten (examensarbeten) i DiVA. Studentmanual. Reviderad

Lektion 5 HTML, CSS, PHP och MySQL

Introduktion HTML och PHP 732G16 Databaser design och programmering

LUPstudentpapers. Manual Reviewer

Förord KERSTIN BALLARDINI

Semantik och pragmatik

Nya funktioner i Insättningsuppgift via Internet

Mall och riktlinjer för kursplan för kurser på grundnivå och avancerad nivå. Fastställd av KUFU Reviderad av KUFU

TNK046 GIS - Databaser Laborationsuppgift 1 Introduktion till Microsoft Access 2007

1. Öppna frågans argument

Programmering och algoritmiskt tänkande. Tema 3, föreläsning 1 Jody Foo

729G09 Språkvetenskaplig databehandling

Publikationstyp Artikel i tidskrift, Artikel, forskningsöversikt och Artikel, recension

Importera och använda en textdatabas i Excel

Bakgrund till förslagen i remissen. Definitionen av överkänslighet har förtydligats.

Linjära ekvationssystem

2 Mängdlärans grundbegrepp

Datorlingvistisk grammatik

Remiss Remissvar lämnas i kolumnen Tillstyrkes term och Tillstyrkes def(inition) och eventuella synpunkter skrivs i kolumnen Synpunkter.

LUPstudentpapers. Manual Student 1:

Tekniker för storskalig parsning

Kapitel 15: Data/Matrix Editor

Remiss Remissvar lämnas i kolumnen Tillstyrkes term och Tillstyrkes def(inition) och eventuella synpunkter skrivs i kolumnen Synpunkter.

Uppdatera Mobilus Professional till version * Filen MpUpdate.exe får inte köras när du startar denna uppdatering.

Naturalism. Föreläsning Naturalismen (tolkad som en rent värdesemantisk teori) är en form av kognitivism

ALEPH ver. 16 Sökning

Anvisningar för ifyllning av Excelark för databaser (xml-filer)

Svarsmall vårdprocess och hälsoärende

Snabbguide för E-lomake

MANUAL FÖR NATIONELLT KVALITETSREGISTER BRÖSTCANCER ADJUVANT BEHANDLING

GPDR personuppgifter i Artologik EZbooking

Så här registrerar du din bok

Språkpsykologi/psykolingvistik

Inlämning i Studentportalen

Manual för. LO-TCO Biståndsnämnds bildbank på

Webbens grundbegrepp. Introduktion till programmering. Ytterligare exempel. Exempel på webbsida. Föreläsning 5

Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 4. Peter Dalenius Institutionen för datavetenskap

Sandsbro AIK - Manual till redaktörer - IdrottOnline Klubb

evidensbaserad databas för sjukgymnaster

Uppdatering

Utvecklingen av ett tidregistrerings- och faktureringssystem

Språk, datorer och textbehandling

Transkript:

SwedishFrameNet (SweFN) Språkbanken University of Gothenburg December 2009 Arbetsrapport Färdigställd av: Maria Toporowska Gronostaj Dana Dannélls

1. Beskrivning av databasen 1.1. Fälttyper Textfält i databasen: FR, FR_Example, FR_SemType, FR_Domain, FE_Core_List, CFE_ST_Example, FE_NonCore_list, FE_Cmp_List, FE_Cmp_Example, LUs_SALDO, LUs_new, Notes, Created_by. 1.2. Fälltsinnehåll Syntax gällande fältnamnen: db//html FR (Frame) // ram Rubriker på ramar är unika i hela FrameNet. Det finns fyra fall för hur vi väljer ramarnas rubriker: (1) om ändringen sker enbart bland de lexikaliska enheterna behåller vi samma rubrik som i det EngFN, (2) om namnet på ramen i det EngFN är identiskt med ett namn på ett ramelement (FE), läggs ordet frame till rubriken (t.ex. i det EngFN förekommer Artifact ramen som innehåller ett element med namnet Artifact, därför väljer vi att döpa om ramen i det SweFN till Artifact_frame), (3) om vissa modifieringar görs bland de obligatoriska elementen som finns in det EngFN, t.ex. borttagning av ett ramelement, läggs ordet reviderat till rubriken, (4) vid skapandet av en ny ram väljer vi en rubrik som inte finns i det EngFN. Varje ram illustreras med minst ett exempel som anges i fältet FR_Example där det bärande predikatet/ordet (target LU) markeras explict med LU och sätts inom hakparenteser []. Även andra ramelementen markeras beträffande deras semantiska roller. T.ex. markeras ramelementen i ramen Experience_bodily_harm i satsen han har skadat på följande sätt [E Han] [LU har skadat] [B handen]. Om det rambärande ordet (target LU) är identiskt med något element markeras detta elementet på samma sätt som LU, dvs. namnet på ramelementet utelämnas (jfr ramen Medical_professionals). När det behövs att införa flera markeringar inom ett komplext ramelement (tex sin arm) så används följande konvention: [Body_part [Experiencer sin] arm] (jfr ramen Experience_bodily_harm). Vi inför en speciell markering för sammanflätning/conflation och stödverb/support verb (se The Book 52-53 för substantiv). För sammanflätningen används P/A, tex. [LU cure] [P/A epileptic]. För stödverb används SUPP tex [SUPP ta] [LU medicin] För copula används COP tex [COP vara] [SUPP på] [LU bättringsvägen]. FR_Example (FR_EX) // exempel Fältet kan innehålla ett eller flera exempel. Varje exempel separeras med en punkt eller annan interpunktionsmarkör om det är en sats, ingen markeringer för fraser. Dubbla semikolontecknen ska alltid stå sist i detta fält såväl som mellan varje exempel. Valet av exempel bör vara representativt för de i textkorpusen förekommande semantiska och syntaktiska varianterna.

FR_ST (Semantic Type) // semantisk typ Detta fält är avsett att fånga en eventuell indikation av den semantiska typen angiven i EngFN och semantiska typer postulerade för SweFN med utgångspunkt i SIMPLE-ontologin. Notationen 0//0 används i odefinierade eller oklara fall. FR_Domain (FR_Dom) // domän Fältet fångar domänprofilen på LU_listan, om orden förväntas vara frekventa i domänspecifika texter. Domänen bestäms utifrån ramen och dess CFEs (Core Frame Elements). Varje ram associeras med minst en profil. De tre profiler som vi använder för nuvarande är: Med (Medical), Art (Artwork), Gen (General). Om de lexikala enheter som anges i ramen kan förankras i lika stor utsträckning i både en specifik domän och ett allmänt språk markeras båda varianter, t.ex. i ramen Death innehåller FR_Dom fältet Med/Gen eftersom de lexem som är representativa för ramen Death kan också förkomma i andra domäner, t.ex. i Art-relaterade texter. FE_Core_List // kärnelement Fältet innehåller en lista med obligatoriska kärnelement, som för det mesta är identiska med elementen i det EngFN, och deras förkortningar som ges inom parentestecken. Än så länge använder vi samma element och elementnamn som i det EngFN. Elementen separeras med ett komma. Andra kärnelement kan föreslås för nya SweFN ramar om ett sådant behov föreligger. CFE_ST_Example (CFE_ST_EX) //exempel (CFE, core frame element, kärnelement.) Dubbla semikolon används mellan alla exempel som illustrerar ett specifik CFE och varje CFE- rad avslutas med dubbla semikolon. FE_NonCore_list //periferielement Fältet innehåller en lista med icke-obligatoriska element och deras förkortningar som ges inom parentestecken. Elementen separeras med ett komma. FE_Cmp_List // sms I detta fält specificeras möjliga typer av sammansättningar som kombinerar CFE och NonCFE. CFE ska förekomma i en slutposition i sammansättningen. Varje kombination separeras med ett komma. FE_Cmp_Example // sms-exempel Varje kombination som förekommer på FE_Cmp_listan måste förekomma i det här fältet med ett eller flera exempel, dvs. relevanta sammansättningar. Varje sammansättning separeras med ett komma, sammansättningstyper separeras med dubbla semikolon. Dubbla semikolontecknen ska alltid stå sist i detta fält. LUs_SALDO // saldo Fältet innehåller listor på de lexikala enheterna som tillhör ramen. Varje ordklass separeras med ett semikolon. Ordklass taggarna är identiska med de taggarna i SALDO, dvs. verb (vb), substantiv (nn) och adjektiv (av). Semikolontecknet används för att dels skilja åt LUs listor för de enskilda ordklasserna, dels för att markera listans slut. LUs_new // saldo (nya)

Här listas alla de lexikala enheterna som tillhör ramen men som saknas i SALDO. Fältets innehåll har samma syntax som gäller i LUs_SALDO fältet. Dubbla semikolontecken ska alltid stå sist i detta fält efter varje ordklass kategori. Notes // kommentar Fältet står för fria kommentarer. Man bör notera ramens status, särskilt för nya ramar anges ramens förhållande till en motsvarande engelsk ram. 1.3. Språk Namnen på semantiska ramar och element är på engelska, de flesta bär samma namn som i det EngFN. Exemplen och de lexikala enheterna är på svenska. 2. Semantiska ramar Databasen innehåller XX svenska ramar (X Med, X Art, X Gen), vi har X förslag på nya lexikala enheter som saknas i SALDO (X substantiv, X verb och X adjektiv) 2.1. Nya ramar Nya ramar redan införda i SweFN: Medical_disorders (Jfr Medical_conditions i EngFN) Health_status (Jfr Medical_conditions i EngFN) Falling_Ill Timespan_preliminary 2.2. Planerade ramar: Maria: En ny ram som vore ett komplement till Observable_bodyparts and People_by_disease Svenska rammotsvarigheter till Fall_asleep, Feeling, Intoxicants, Intoxication, Inspecting, Scrutiny, Scrutinizing_for, Verification, Removing, State_of_entity, Dead_or_alive, Dying, Separating, Part_whole Dana: Arbeta vidare med Timespan ramen, Categorization, Title, People_by_vocation, Means, Locale_by_use, Document, Substance 3. Kopplingar mellan SweFN och andra lexikaliska resurser SALDO SIMPLE ontologi IDS/LWT (Intercontinental dictionary series/loan word typology) 4. Teoretiska frågeställningar och tankegångar 4.1 Frågeställningar Hantering av sammansättningar som består av olika FE Beskrivning av ramar och FE i termer av semantiska typer enl. FN//SIMPLE.

Domän information Nya ramar Genomgång av ramar utifrån ett onomasiologiskt perspektiv (tex Medicin, Timerelaterade ramar) för att fylla i eventuella luckor i det EngFN, Undersökning av sammanflätade element ( conflation of core elements; The Book s. 25; t.ex. cure the epileptic conflation of Patient and Affliction) Propagationen av informationen om semantiska typer samt mappningen av OWL och FN (se The book. s.127) Möjlig sammanfogning av ramar utifrån (1) en ontologisk klassifikation, betydelse nivå, (2) lexikalisk, lexemnivå. 4.2. Tankegångar APPROACH Den övergripande approachen till rambeskrivningen bygger på en kombination av ett onomasiologiskt och semantiskt perspektiv. Genom att arbeta utifrån domäner och deras frågeställningar kommer vi att få en mer uttömmande och kunskapsrelaterad beskrivning av relevanta relationer och begrepp för varje domän. Metoden möjliggör att fylla i luckor i den befintliga förteckning av engelska ramar, t.ex. Falling_ill postuleras som ett komplement till Recovery, People_by_diseases som ett komplement till Medical_professionals, People_by_age or People_by_religion. En systematisk jämförelse och genomgång av typerna av semantiska element planeras för att kunna fånga möjliga generaliseringar och därigenom reducera antalet ramelement. Taggningssystemet bygger på den EngFN., dvs. i substantiviska ramar taggar vi enbart nominala fraser som innehåller det substantiviska LU. I ramar där huvudordet är ett verb taggas alla argument som hör till verbet. CONFLATION PATIENT/AFFLICTION: patient vars namn syftar på en typ av sjukdom, t.ex. reumatiker implicerar sjukdomen reumatism som sorteras under ramen Health_status. Botandet av person innefattar oftast botandet av sjukdomen. Sådan information bör man kunna generera automatiskt ur ordböcker, dels från definitioner, dels med hjälp av ordbildningsregler (tex. NEO: reumatiker person som lider av reumatism). REPRESENTED/REPRESENTATION: skapandet av tavlans motiv inbegriper/implicerar skapandet av en tavla. Man bör fundera på: (1) till vilken grad beror sammanflätning på verbet (bota är OK, men ej behandla eftersom man kan t.ex. behandla reumatikern för andra åkommor). (2) om med hjälp av logiskt motiverade ramar (OWL) kan vi hitta potentiella fall av sammanflätning/conflation. 5. Teknisk specifikation 5.1. Den nuvarande versionen (v0.1) en ODB (Open Office DB) databas i html format finns i subversion

ODB tillåter att formulera sql-frågor, dock inte så avancerade tillgång till den EngFN-databasen via Berkeley webbtjänsten 5.2. Framtidsutveckling inspektion av data utifrån vissa semantiska fält el. fältkombinationer tillgång till det EngFN-databasen (Dana har redan skrivit på licensavtalet, vi kommer snart att ha tillgång till hela databasen lokalt) Appendix A. Förkortningar CFE Core Frame Element Cmp Compound FR Frame Name FE Frame Element EngFN English FrameNet ST Semantic Type Appendix B. IDS/LWT concept 1 The physical world 2 Kinship 3 Animals 4 The body 5 Food and drink 6 Clothing and grooming 7 The house 8 Agriculture and vegetation 9 Basic actions and technology 10 Motion 11 Possession 12 Spatial relations 13 Quantity 14 Time 15 Sense perception 16 Emotions and values 17 Cognition 18 Speech and language 19 Social and political relations 20 Warfare and hunting 21 Law 22 Religion and belief 23 Modern world 24 Miscellaneous function words