En jämförelse av ilex och Elan

Relevanta dokument
Korpusarbete i teckenspråk

Undervisning om nationella minoritetsspråk

Minoritetsspråken i Sverige

Att använda ELAN - Bruksanvisning för annotering och studie av teckenspråkstexter

Kort om World Wide Web (webben)

Klarspråkarbetet i Sverige

Hur kan vi använda korpusmaterial och teckenspråkslexikon i språkutbildningen?

Nordisk språkgemenskap på olika sätt. Tankarna bakom den nordiska språkdeklarationen Olle Josephson 28 augusti 2014

Värna språken. -förslag till språklag. Betänkande av Spräklagsutredningen. Stockholm 2008 STATENS OFFENTLIGA UTREDNINGAR SOU 2008:26

Preambel ÞORGERÐUR KATRÍN GUNNARSDÓTTIR, UNDERVISNINGSMINISTER, ØYSTEIN DJUPEDAL,

Tal Språkpolitikens dag 2014

I dag. Språklagen. Klarspråksparagrafen. Vad är klarspråk? Hur skriver man klarspråk? Vad kan Språkrådet hjälpa till med?

Att använda ELAN. Bruksanvisning för annotering och studie av teckenspråkstexter. Johanna Mesch

Att använda ELAN. Bruksanvisning för annotering och studie av teckenspråkstexter. Johanna Mesch

Kapitel 4 Arkivmenyn Innehåll

Mål i mun Förslag på en plan för svenska språket

Remissvar på Nästa steg? Del 2. Förslag för en stärkt minoritetspolitik (SOU 2017:88)

Klarspråk ett begripligt offentligt språk

alltid aktuell information För ditt underhåll TrainMate

PC-Axis familjen En produktöversi k t

Nationella minoriteter i förskola och skola

Skriva för webb: Klarspråk och jämlik kommunikation. Ht 2016

Språk, datorer och textbehandling

Tanka program KAPITEL 7. Shareware och freeware. Shareware. Freeware

Stödboken är en samling av förslag och idéer som kommit Kommunförbundet Norrbotten tillkänna under projektet Information på minoritetsspråk

Administrationsmanual ImageBank 2

Romska i undervisningen och på webben

Beställning av certifikat för anslutning till BankID (RP certificate) Version

Språk, datorer och textbehandling

Samråd Minoritetspolitikens motor. Lennart Rohdin Länsstyrelsen i Stockholms län Luleå, 24 februari, 2011

FrontPage Express. Ämne: Datorkunskap (Internet) Handledare: Thomas Granhäll

Installation. Kom i gång att använda ArcGIS Pro. Tillgång till ArcGIS pro

Sprog i Norden. Händelser på det språkpolitiska området i Norden. Kilde: Sprog i Norden, 2005, s

Språk, datorer och textbehandling

Språk så mycket mer än ord

Vilken betydelse har den nya språklagen för Sveriges kommuner och landsting?

MODERSMÅL FINSKA 1. Syfte

Sammanfattning Rapport 2012:2. I marginalen. -En granskning av modersmålsundervisning och tvåspråkig undervisning i de nationella minoritetsspråken

Policy avseende Malmö stads arbete med att tillgodose de nationella minoriteternas rättigheter

LEX INSTRUKTION LEX LDAP

Tala klarspråk även i skrift!

Nytt på teckenspråksfronten i Finland

Manual för version V2

Kontinuitet och förändring

Uppgradering till DentalEye 3.2

Svensk nationell datatjänst, SND BAS Online

KUNDREGISTER Sid 2(7) Teknisk specifikation

Allas rätt till språk. Läslyftet September 2018 Catharina Nyström Höög

Rune Tennesmed. Oskar Norling 1DV430. Individuellt Mjukvaruutvecklingsprojekt 1DV430 Webbprogrammerare H12 Oskar Norling

5HVLVWHQVWDEHOO 'DWD3DUWQHU. Er partner inom data

Regleringsbrev för budgetåret 2008 avseende Institutet för språk och folkminnen. Politikområde Verksamhetsområde Verksamhetsgren

Nu börjar vi! Välkomna! Välkommen till Tecken som alternativ och kompletterande kommunikation (TAKK), grundkurs Tillfälle 1. Jag heter (persontecken?

Software Translator 6.1 Manual

Axiell Arena Visa BOOK-IT:s resurser

Remissvar på betänkandet Nästa steg? Förslag för en stärkt minoritetspolitik (SOU 2017:60) Institutet för språk och folkminnens synpunkter

Vid problem med programmet kontakta alltid C/W Cadware AB på telefon

Elever och skolenheter i grundskolan läsåret 2017/2018

Innehåll. MySQL Grundkurs

Kom igång med TIS-Office

Installationsanvisningar. till IST Analys

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Flex - Manual. Innehåll

RVS5000PC. Allmänt. RVS5000PC produktblad

Aktuellt från Regeringskansliet

Installation/uppdatering av Hogia Personal fr.o.m. version 13.1

Institutionen för Tillämpad fysik och elektronik Stefan Berglund och Per Kvarnbrink. Laboration: Flerskiktade applikationer

Meditech. CardioVisions. version 1.19.xx. Installationshandledning

Arbetsmaterial HTML pass 1 - Grunder

Policy för minoritetsspråk i Kiruna kommun

Att. Vad kan vi hjälpa er med?

Skapa din egen MediaWiki

Inlämningsarbete Case. Innehåll Bakgrund bedömning inlämningsarbete... 2 Inlämnade arbeten... 4

Installation/Flytt av Rebus

Forskningsstrategi. för Institutet för språk och folkminnen

Referenshanteringsprogrammet

ANVÄNDARGUIDE VITAL & TALANDE TANGENTBORD

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

Kunskapskrav. Du ska kunna jämföra svenska med närliggande språk och beskriva tydligt framträdande likheter och skillnader.

ALLA BARN HAR RÄTT ATT BLI TAGNA PÅ ALLVAR

Användarhandledning Plancenter Admin version 2011

Tillgänglighet och teknologi en omöjlig möjlighet?

Så här byter du från Unifaun WebOrder (UWO) till Unifaun OnlineConnect (UOCT)

Laboration 0. Enhetsbokstaven anges med ett kolon efter och man läser ofta ut detta, exempelvis C:(sekolon).

Välkommen på kurs hos RIGHT EDUCATION!

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Instruktion för användande av Citrix MetaFrame

TDP003 Projekt: Egna datormiljön

Den 21. life for the individual. i världen och för individen. Elevernas

Instruktion för användande av Citrix MetaFrame

VAD GÖR DU / VEM ÄR DU?

DE NATIONELLA MINORITETSSPRÅKEN

SNABBGUIDE TILL LÄRANÄRA

Mariaskolan hela skola föräldrar 2016

För installationer av SQL Server som inte görs från Hogias installation måste följande inställningar göras:

517 minoriteter(ram) Ökad säkerhet för den judiska minoriteten(ram)

Rutgerskolan föräldrar 2016

Excel Online Version 1.0 Skolkontoret

6. BLOGGVERKTYG. Här ska vi titta på några olika bloggverktyg som du kan använda för att komma igång med att börja blogga.

Transkript:

Tommy Lyxell En jämförelse av ilex och Elan Några tankar om teknikval inför korpusarbete i teckenspråk Nordiskt korpusseminarium för teckenspråk, Stockholms universitet den 7 nov 2008. Jag kommer från Språkrådet och delar på en språkvårdartjänst i teckenspråk med Tomas Hedberg. Språkrådet är en del av en språkmyndighet, Institutet för språk och folkminnen, som inrättades den 1 juli 2006. Språkmyndigheten arbetar med dokumentation av dialekter och folkminnen i Sverige samt språkvård. Inom Språkrådet finns ungefär 20 personer anställda. De flesta jobbar med språkvård i svenska, vilket har gjorts sedan 1944. En del av språkvården sysslar med myndigheternas språkanvändning, s.k. klarspråksarbete. Språkvård i finska har funnits i Sverige sedan 1975. År 2000 blev fem minoritetsspråk officiella i Sverige, däribland finska. De andra språken är samiska, meänkieli (tornedalsfinska), romani chib och jiddisch. Efter att Språkrådet bildades så bedrivs språkvård även på romani chib och meänkieli. Jiddisch har ingen språkvård. Svenskt teckenspråk är inte ett officiellt minoritetsspråk, vilket hänger samman med att Europarådets minoritetsspråkskonvention inte tog hänsyn till de nationella teckenspråken. Men statsmakterna i Sverige anser ändå att teckenspråk bör ha egen språkvård. Sedan våren 2007 bedrivs även språkvård i svenskt teckenspråk. I regeringens instruktion för Institutet för språk och folkminnen står bland annat att myndigheten ska samla in, bevara, vetenskapligt bearbeta och sprida material om [...] svenska teckenspråket samt dialekter, folkminne, folkmusik och namn i Sverige. De ben som verksamheten står på är information, dokumentation och språkpolitiskt arbete. Språkvårdens behov av korpusar Språkrådet har fått medel ett forskningsanslag inom Institutet för språk och folkminnen, motsvarande en (1) manmånad för en förstudie kring de verktyg som idag är tillgängliga för korpusinsamling av teckenspråk, och det är jag som utför arbetet. Arbetet sträcker sig över en längre period och beräknas vara klart före juluppehållet. Jag är ännu inte klar med förstudien. Jag är här för att berätta om de tankar som väckts under arbetets gång. Inom språkvården har vi ett behov av att använda teckenspråkskorpusar. Vi är inte forskare, men vi behöver ett språkmaterial för undersökningar kring språkfrågor som vi får från allmänheten. Det är inte alltid som den språkliga intuitionen räcker till. Vi behöver korpusar bland annat för att: - tidsbestämma teckenanvändning - göra frekvensstudier - se hur tecken används i kontexter för att bedöma tecknens betydelseomfång

- studera nyordsbildning - studera uttalsskillnader, teckenvariationer - identifiera kodväxling och översättningslån - studera förändringar i teckenspråket över tiden - bedöma hur teckenspråket utvecklas i generation till generation Två datorprogram för korpusarbete: Elan och ilex Jag har tittat närmare på två program som används inom teckenspråksvärlden: Elan och ilex. Båda finns för MacOS X och Windows. Elan även för Linux. Jag har inte titta på Filemaker, även jag vet att det används i lexikonarbete i flera länder. Filemaker kan kopplas till sqldatabaser vilket öppnar upp för nya möjligheter, men jag har ännu inte sett några tillämpningar för korpusarbete i teckenspråk. Elan säkert bekant för några av er. Programmet utvecklas vid Radboud universitet i Nijmegen. Från början utvecklades verktyget för studier av gester i talade samtal. Teckenspråksforskare upptäckte att programmet passade utmärkt för annoteringar av teckenspråk. Arbetssättet påminner om att annotera teckenspråk manuellt på pappersark. Man följer en tidslinje och markerar där olika manuella tecken och andra grammatiska signaler utförs. Den stora skillnaden är att man i Elan kan följa annotationen och se teckenspråket utföras på videofilm. Det finns en länk mellan annotation och det filmade teckenspråket. Elan kan hämtas från internet tillsammans med en manual på denna adress: http://www.lat-mpi.eu/tools/elan. Det är relativt lätt att komma igång med programmet. Elan kan arbeta med 4 videofilmer samtidigt. Det innebär att man kan jobba med flera kameravinklar och utsnitt vid samma inspelningstillfälle och studera olika detaljer. ilex inte lika känt åtminstone inte testat av teckenspråksforskare. Programmet utvecklas av teckenspråksavdelningen vid Hamburg universitet. Ilex kräver mer förarbete innan man kan börja använda det. Det går inte att hämta programmet från internet och det saknas en manual för programmet. Lars Wallin från Stockholms universitet, Tomas Hedberg och jag från Språkrådet var tvungna att åka till Hamburgs universitet för en tvådagarskurs i programmet. Efter genomgången kurs fick vi möjlighet att ta hem programmet och testa på egen hand. Det unika med ilex är att det är speciellt framtaget för lexikografiskt arbete av teckenspråk. ilex arbetar bara visa en film i taget. Lite information om ilex finns här: http://www.sign-lang.unihamburg.de/ilex/. Olika sätt att lagra och bearbeta data Jag är speciellt intresserat av hur verktygen klarar av stora korpusar eller språkbanker om man så vill. Annotering är ett tidsödande arbete och man vill gärna inte göra om arbetet, så det är viktigt att all data kan ta varas på vid framtida utbyggnadsbehov. Verktyget bör helst vara flexibla och inte låsa in forskningen i en bestämd struktur. Elan och ilex bygger på två olika principer för hur man organiserar data. Jag är inte datorprogrammerare jag betraktar mig som datorentusiast men utifrån vad jag läst och hört så har jag fått fram följande fakta. Elan är dokumentcentrerat. Annotationer sparas i dokumentfiler med länkar till videofilmer. Dokumentens filformat följer xml-standarden (extensible Markup Language), vilket betyder att både data och taggning finns i samma dokument. Xml är en öppen standard och får sägas vara framtidssäkert. Eftersom all information finns i samma dokument är det lätt att flytta

filerna, och skicka dem via e-post. Det är särskilt lämpligt i undervisningssammanhang. Men vill man även se filmerna måste även dessa sändas med. Det är viktigt att mappstrukturen ligger fast; flyttar man på dokumenten eller videofilmerna så förloras länkarna. ilex bygger på sql (Structured Query Language) och innebär att all information finns i en databas. Sql är en vanligt förekommande databasmotor och är också en öppen standard. Med hjälp av sql-anrop hämtar man det data man är intresserad av från en server. ilex är ett program som kopplas upp mot en server där all annoterat material lagras. Filmat material och annat bildmaterial kan ligga på ytterligare en annan server. Det ger en stor frihet att organisera datan. Å andra sidan är det inte lika lätt att flytta informationen mellan datorer eller skicka via e-post. Man måste vara uppkopplad mot en server. I Elan finns allt material i samma dator. Se principskissen nedan. Det finns vissa export- och importmöjligheter av data mellan programmen, men i vissa fall krävs det handpåläggning. Koppling mellan glossa i annotation och lexikon Ett problem som uppstår när annotationer görs för hand är att annotatörer kan använda olika glossor för samma tecken. Risken är stor då det saknas en standard för hur annotationer ska göras. Det innebär att korpusar blir mindre tillförlitliga eller rent av oanvändbara när man ska göra sökningar. Ett sätt att komma runt detta är att ha strikta konventioner för hur glossor ska användas, men det kräver att det finns en fullt utarbetad standard och en rigid kontroll av annotationsarbetet. Ytterligare en risk med att skriva manuellt är att det kan bli felstavningar. Ett säkrare sätt att undvika variationer i annotationen är att länka glossor i annotationen med ett lexikon. Om det redan finns ett lexikon med givna glossor för tecken vill man givetvis utnyttja dessa. Idag är det bara ilex som kan länka annotationer med lexikon. Det innebär att istället för

att skriva glossorna manuellt kan man hämta dessa från ett lexikon. En länk mellan annotation och lexikon skapas. Och tvärtom, lexikonet fylls på med nya tecken allteftersom dessa identifieras och annoteras i korpusmaterial. Fördelen med detta arbetssätt är att man undviker felstavningar och variationer i glossor. Om man senare bestämmer sig för att ändra glossnamnet i lexikonet så syns denna ändring även i korpusen. Man slipper att i efterhand ändra dessa manuellt, vilket är enormt tidsbesparande. Under förstudien har jag fått veta att det pågår arbete med att koppla ett lexikonprogram, som heter Lexus, till Elan. En första version av detta arbete beräknas vara klart runt sommaren 2009. Det innebär att Elan får samma fördelar som ilex i detta hänseende. Jag har inte hunnit bekanta mig med Lexus. Programmet har dock funnits i några år som självständig applikation. Sökning i korpusar Att kunna söka i korpusar är en central funktion. Utan sökmöjligheter är programmen till begränsad nytta. Elan har vissa sökmöjligheter. Man kan söka i flera dokument samtidigt och presentera resultatet som konkordanser, d.v.s. se de föregående och efterföljande glossorna. Men det går även att söka i valfri annotationsrad (tier). Det går även att få fram frekvensanalyser, d.v.s. hur ofta ett tecken/annotation förekommer. ilex har också sökmöjligheter där det går att får fram frekvens och förekomster. Det är också att det är möjligt att skapa egna sökfrågor. Detta kräver dock att man känner till programmeringsspråket sql. Jag har ännu inte studerat vilka andra sökmöjligheter som finns i Elan respektive ilex. Vilket program är bäst? Inget av programmen är egentligen något renodlat korpusprogram. Elan får betraktas som ett annotationsprogram med vissa sökmöjligheter. ilex är designat som ett korpusbaserat lexikografiskt verktyg; det används till att skapa lexikon för teckenspråk. Men eftersom ilex bygger på sql så är det möjligt att skapa nya sökfrågor enligt de behov man har. Jag vet inte hur anpassningsbart xml är när det gäller sökningar, men min uppfattning är att sql är kraftfullare och mer flexibelt. Det hänger naturligtvis även på hur noggrant man taggar sitt material. Elan har ett renare gränssnitt och är lättare att komma igång med. ilex kan upplevas som plottrigare och man arbetar i många fönster. Det krävs mer arbete att installera och underhålla programmet, och det saknas en manual vilket är en nackdel. Annars arbetar man på ett likartat sätt; man annoterar längs en tidslinje och man kan välja själv hur många rader (tiers) man vill göra annotationer på. Helst skulle man vilja ha ett program som kombinerar fördelar från båda programmen. Elan har för närvarande en större användarskar än ilex. Det är viktigt att inte stirra sig blind på tekniken och tvinga sig att anpassa sig till den; man bör istället fråga sig vad verktyget ska användas till. Vilka typer av sökningar behöver man göra? Hur behöver man presentera informationen? I vilka situationer behöver man komma åt korpusarna? etc. När man gjort sin kravspecifikation kan man titta på vilka verktyg som finns tillgängliga och eventuellt föreslå förändringar till programutvecklarna. Dataprogrammen gör

bara det vi säger åt dem att de ska göra. Såväl ilex som Elan är utvecklade med speciella syften, men jag har fått intrycket att utvecklarna av båda programmen är öppna för förslag till förändringar i framtida versioner. Filemaker är ett kommersiellt relationsdatabasprogram som kan vara intressant att titta närmare på i korpussammanhang. De senaste versionerna har möjlighet ställa sql-frågor till databaser, vilket kanske gör det möjligt att skapa kopplingar mellan lexikon och korpusmaterial. För de länder som redan skapat lexikon i Filemaker kan detta vara intressant. Jag har dock inte haft tid till att utvärdera Filemaker. Inom forskningen skapar man oftast korpusar med ett speciellt syfte. Man vill studera vissa aspekter i teckenspråket. Inom Språkrådet är vi intresserade av större och generella korpusar kanske ska man kalla det för språkbanker vilket innebär att man ska kunna ställa olika typer av sökfrågor beroende på vilka språkfrågor man studerar. Tommy Lyxell Språkvårdare i teckenspråk Språkrådet i Sverige