Semantic Technologies in Computational Terminology Management. Jody Foo,

Relevanta dokument
Semantic and Physical Modeling and Simulation of Multi-Domain Energy Systems: Gas Turbines and Electrical Power Networks

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Det här med levels.?

FÖRBÄTTRA DIN PREDIKTIVA MODELLERING MED MACHINE LEARNING I SAS ENTERPRISE MINER OSKAR ERIKSSON - ANALYSKONSULT

Ontologier. Cassandra Svensson

Risk Management Riskhantering i flygföretag

Sri Lanka Association for Artificial Intelligence

SVENSK STANDARD SS

A metadata registry for Japanese construction field

Adding active and blended learning to an introductory mechanics course

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

Kursplan. FÖ1038 Ledarskap och organisationsbeteende. 7,5 högskolepoäng, Grundnivå 1. Leadership and Organisational Behaviour

Lektion 3. Anteckningar

Drönaren i olika branscher, omställning och framtidsspaning. Fredrik Hansson VD Swescan

Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

SweLL & legal aspects. Elena Volodina

FORSKNINGSKOMMUNIKATION OCH PUBLICERINGS- MÖNSTER INOM UTBILDNINGSVETENSKAP

Säkerhetsfunktioner rstå varandra? Finns behov av att avvika från normal säkerhetsfunktion s vissa betingelser under uppstart, ändringar i processen

The present situation on the application of ICT in precision agriculture in Sweden

SVENSK STANDARD SS

SVENSK STANDARD SS-EN ISO

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Företagsekonomi, allmän kurs. Business Administration, General Course. Business Administration until further notice

School of Management and Economics Reg. No. EHV 2008/220/514 COURSE SYLLABUS. Fundamentals of Business Administration: Management Accounting

Introduction to the Semantic Web. Eva Blomqvist

Understanding Innovation as an Approach to Increasing Customer Value in the Context of the Public Sector

The Municipality of Ystad

Erfarenheter från Hazop användning på programvara i Arte740. Presentation för SESAM Claes Norelöv 4Real AB

Measuring child participation in immunization registries: two national surveys, 2001

PFC and EMI filtering

SVENSK STANDARD SS-EN ISO 11341

FOI MEMO. Jonas Hallberg FOI Memo 5253

School of Management and Economics Reg. No. EHV 2008/245/514 COURSE SYLLABUS. Business and Market I. Business Administration.

SVENSK STANDARD SS-EN ISO 9706

Programvaruintensiva system

GeoGebra in a School Development Project Mathematics Education as a Learning System

SVENSK STANDARD SS-EN ISO 19108:2005/AC:2015

SVENSK STANDARD SS-EN ISO

Changes in value systems in Sweden and USA between 1996 and 2006

SVENSK STANDARD SS-EN

SVENSK STANDARD SS-ISO 8734

SVENSK STANDARD SS-EN ISO

Course syllabus 1(7) School of Management and Economics. FEN305 Reg.No. EHVc 2005:6 Date of decision Course Code. Företag och Marknad I

SVENSK STANDARD SS-EN 13612/AC:2016

Kursplan. MT1051 3D CAD Grundläggande. 7,5 högskolepoäng, Grundnivå 1. 3D-CAD Basic Course

Kristina Säfsten. Kristina Säfsten JTH

Examples on Analog Transmission

SVENSK STANDARD SS-EN ISO

Helle Ambrén. External Relations and Communications Office

Värmeväxlare - Terminologi. Heat exchangers -Terminology

Utvecklings- och tillväxtplan för ett hållbart Åland

J. Japan Association on Odor Environment Vol. -2 No. -,** Flavor * + * *, **

SVENSK STANDARD SS-EN 978

ANSÖKAN OM INRÄTTANDE AV EXTERNT FINANSIERAT DOKTORANDPROJEKT ANNAN ARBETSGIVARE ÄN GÖTEBORGS UNIVERSITET

Specifikation och tidsplan för examensarbete

ANSÖKAN OM INRÄTTANDE AV EXTERNT FINANSIERAT DOKTORANDPROJEKT ANNAN ARBETSGIVARE ÄN GÖTEBORGS UNIVERSITET

Goals for third cycle studies according to the Higher Education Ordinance of Sweden (Sw. "Högskoleförordningen")

SVENSK STANDARD SS-EN ISO

Arbetsplatsträff 8 mars 2011

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Arbetsplatsträff 5 april, 2017 Workplace meeting April 5, 2017


SVENSK STANDARD SS-EN ISO 11734

Image quality Technical/physical aspects

Gävle. CCIC, Innovative Cities Svenska Kommun Försäkrings AB Nidaros Forsikring. (Swedish Municipality Insurance Co Ltd)

SVENSK STANDARD SS-ISO :2010/Amd 1:2010

J. Japan Association on Odor Environment Vol. -1 No. 0,**0 431

Design. Vad lärde jag mig förra lekfonen? Hur bidrog jag Fll lärandet? Kravhantering sammanfa0ning 13/04/14

LARS. Ett e-bokningssystem för skoldatorer.

Revidering av ISO Peter Allvén SIS TK-304/PostNord

Hört och lärt på NES2012 Session: Visual ergonomics

Byggdokument Angivning av status. Construction documents Indication of status SWEDISH STANDARDS INSTITUTE

SVENSK STANDARD SS-EN 175

Grass to biogas turns arable land to carbon sink LOVISA BJÖRNSSON

Isolda Purchase - EDI

Swedish adaptation of ISO TC 211 Quality principles. Erik Stenborg

SVENSK STANDARD SS-EN ISO

ISO general purpose screw threads Basic profile Part 1: Metric screw threads

Examensarbete i matematik på grundnivå med inriktning mot optimeringslära och systemteori

Genusstudier i Sverige

Thesis work at McNeil AB Evaluation/remediation of psychosocial risks and hazards.

SRS Project. the use of Big Data in the Swedish sick leave process. EUMASS Scientific program

Grafisk teknik IMCDP IMCDP IMCDP. IMCDP(filter) Sasan Gooran (HT 2006) Assumptions:

International Baccalaureate. Rolf Öberg

DVG C01 TENTAMEN I PROGRAMSPRÅK PROGRAMMING LANGUAGES EXAMINATION :15-13: 15

Datasäkerhet och integritet

Mapping sequence reads & Calling variants

District Application for Partnership

Kursplan. AB1029 Introduktion till Professionell kommunikation - mer än bara samtal. 7,5 högskolepoäng, Grundnivå 1

Pulsen IAM: Del 2 Trender och teknik för morgondagens utmaningar. Tobias Ljunggren, PULSEN

Non-toxic antifouling methods to combat marine bio fouling on leisure boats in the Baltic Odd Klofsten Boatwasher Sweden AB

Polismyndigheten i Stockholms län Länskriminalpolisen Amir Rostami

A study of the performance

Till sökande för KRAV-certifiering av produkter från fiske. To applicants for KRAV certification of seafood products from capture fisheries

The annual evaluation of the Individual Study Plan for PhD students at the Department of Biochemistry and Biophysics

Transkript:

Semantic Technologies in Computational Terminology Management Jody Foo, jody.foo@liu.se Department of Computer and Information Science (IDA) Linköping university, SWEDEN

Overview Computational what? Automatic Term Extraction Future research

Terminology

Terminology Terminology Science, interdisciplinary field of knowledge dealing with concepts and their representations an aggregate of terms which represent the system of concepts of an individual subject field a publication in which the system of concepts of a subject field is represented by terms Felber, 1984, p. 1

concept term object definition

coniferous tree fir tree with needle-formed leaves and exposed or naked seeds coniferous tree of the genus abies firewood wood for fuel light-demanding tree tree preferring sunny habitat noble gas 1) helium, neon, argon, krypton, xenon or radon 2) gas that in the natural state is chemically inactive tolerant tree tree tree preferring shade tall plant with hard self-supporting trunk and branches that lives for many years wood hard fibrous material obtained from the stems and branches of trees or shrubs wood bin box for holding firewood

coniferous tree fir tree with needle-formed leaves and exposed or naked seeds coniferous tree of the genus abies firewood wood for fuel light-demanding tree tree preferring sunny habitat noble gas 1) helium, neon, argon, krypton, xenon or radon 2) gas that in the natural state is chemically inactive tolerant tree tree tree preferring shade tall plant with hard self-supporting trunk and branches that lives for many years wood hard fibrous material obtained from the stems and branches of trees or shrubs wood bin box for holding firewood

5.5. kaj Definition: till strandlinjen anslutande konstruktion för förtöjning av fartyg Engelsk term: wharf, quay Anmärkning: Konstruktionen har en eller flera lodräta sidor mot djupt vatten och en vågrät ovansida för godshantering. Källa: Specifikation Nationell Strandlinje, version 1.5, Sjöfartsverket och Lantmäteriet 2008 5.6. hamnbassäng Definition: av kajer, pirar eller vågbrytare helt eller delvis innesluten del av hamns vattenområde Engelsk term: basin Anmärkning: Hamnbassängen är avsedd för manövrering och vändning av fartyg. Källa: Baserad på Terminologicentrum TNC, SIS Allmänna standardiseringsgruppen (SIS STG): Transportordlista 1992 5.7. allmän hamn hamn som inrättats som allmän hamn och som finns förtecknad i Sjöfartsverkets kungörelse med tillkännagivande om beslut om allmänna farleder och allmänna hamnar (SJÖFS 1988:5) Anmärkning: En allmän hamn får inrättas om hamnen är av väsentlig betydelse för den allmänna samfärdseln. En allmän hamn är öppen för allmän sjötrafik, vilket innebär att alla fartyg i princip har rätt att i mån av plats anlöpa hamnen och utnyttja dess resurser. Källa: Baserad på Lag (1983:293) om inrättande, utvidgning och avlysning av allmän farled och allmän hamn samt Sjöfartsverkets kungörelse med tillkännagivande om beslut om allmänna farleder och allmänna hamnar (SJÖFS 1988:5). Ordlista och begreppsdiagram - Farleder och hamnar (2011)

Ordlista och begreppsdiagram - Farleder och hamnar (2011)

gy ER-diagram UML Semantic Web Finite State Automaton Class diagram Flow chart Network topology Ontology

Computational Terminology Management Terminology Creation Terminology Maintenance Terminology Use

Automatic Term Extraction Monolingual ATE, Bilingual ATE, Evaluation of ATE

These are not the terms we are looking for Information Retrieval (Manning, 2008) a term is a type included in the IR system s dictionary a type is the class of all tokens containing the same character sequence a token is an instance of a sequence of characters in some particular document that are grouped together as a useful semantic unit for processing

These are the terms we are looking for Termhood: The degree to which a stable lexical unit is related to some domain-specific concepts Unithood: the degree of strength or stability of syntagmatic combinations and collocations Kageura, 1998

General monolingual ATE process Documents wordunit 1 wordunit 2 wordunit 3... wordunit n term candidate 1 term candidate 2 term candidate 3 term candidate n

Automatic Term Extraction (ATE) Automatic Term Extraction Linguistically Oriented Approaches Statistically Enhanced Approaches Contrastive Approaches

Linguistic Approaches Morphological patterns (Ananiadou 1994) morphological analysis to identify neoclassical morphological elements (latin, greek) in the medical domain Part-of-speech based patterns Daille 1994 (fr): e.g. N ADJ, N1 de N2 Justeson & Katz 1995 (en): ((Adj Noun)+ (Adj Noun)*

Statistically enhanced approaches Linguistically oriented approaches + statistical filtering Association measures Log-Likelihood (Daille 1994) Mutual Information (Daille 1994) Dice Factor (Smadja, 1996) Specialized measures

C-Value/NC-Value Frantzi, Ananiadou, Tsujii 1998 Multi-word term extraction method POS patterns + stop lists Nested terms: real time {real time clock, real time data...} Statistical filtering

C-Value/NC-Value Frantzi, Ananiadou, Tsujii 1998 C value(a) = { log2 a ( f (a) ) a log 2 a f (a) 1 P(T a ) b T a f (b) a = real time f(a) = 300 T a = {real time clock, real time output} b 1 = real time clock P(T a ) = T a = 2 f(t a ) = 500 C(a) = log(2) * (300-250)

Contextual clues C-Value/NC-Value Frantzi, Ananiadou, Tsujii 1998 Weight(w) = t(w) n w = adj, n or v t(w) = number of terms that w appears with n = total number of terms

NC-Value C-Value/NC-Value Frantzi, Ananiadou, Tsujii 1998 NC value(a) =0.8 C value(a)+0.2 b C a f a (b)weight(b)

Contrastive approaches Possible data sources for statistical calculations internal corpus external corpus, same domain external corpus, opposite domain external corpus, closely related domains external corpus, other specialized domains external corpus, general language

Weirdness Ahmad, Gillam, & Tostevin, 1999 Weirdness = w s/t s w g /t g

Contrastive Weight Basili, Moschitti, and Pazienza (2001) Contrastive Weight F t = j f j t IWF(t) =log( N F t ) w i t = log(f i t ) IWF(t)

TermExtractor Sclano and Velardi (2007) Domain Relevance Domain Consensus Lexical Cohesion

Domain relevance DR Di (t) = ˆP(t/D i ) max ( ˆP ( t/d j )) = freq(t, D i ) max ( freq ( t, D j ))

Domain Consensus DC Di (t) = d k D i ˆP (t/d k ) log ( ˆP (t/d k ) ) = d k D i f n (t, d k ) log ( f n (t, d k ))

Lexical Cohesion LC Di (t) = n freq(t, D i) log ( freq(t, D i )) j freq ( w j, D i )

Combine all w(t, D i )=α DR + β DC + γ LC

Bilingual ATE bilingual term extraction extract-align align-extract single sided selection parallel selection

Synergy between monolingual and bilingual ATE Extract-Align same approach as monolingual ATE Align-Extract using monolingual ATE to extract a second language

Future research

Ontology Engineering meets CTM meets the Semantic Web? Creation Maintenance Use

Ontology Engineering meets CTM meets the Semantic Web? Creation Maintenance Use

Intelligent Tools for Terminology Maintenence Semi-automatic environments based on existing ontologies, terminologies and corpus data. Supported by visual representations that make relationships

FCA - Formal Concept Analysis Demo!