Korpusarbete i teckenspråk



Relevanta dokument
En jämförelse av ilex och Elan

Hur kan vi använda korpusmaterial och teckenspråkslexikon i språkutbildningen?

Att använda ELAN - Bruksanvisning för annotering och studie av teckenspråkstexter

Att använda ELAN. Bruksanvisning för annotering och studie av teckenspråkstexter. Johanna Mesch

Att använda ELAN. Bruksanvisning för annotering och studie av teckenspråkstexter. Johanna Mesch

Kort om World Wide Web (webben)

MÖTESPLATS INFÖR FRAMTIDEN. Borås 8-9 oktober Helena Söderlund, Länsbiblioteket i Örebro län

Mål i mun Förslag på en plan för svenska språket

Inledning. Teckenspråk. Översättning och material. Informationsproduktion på teckenspråk. Video kriterier och lösningar. Beställning och rådgivning

Svensk nationell datatjänst, SND BAS Online

Årsrapport teckenspråksnätverket vid Nordisk Språkkoordination

Undervisning om nationella minoritetsspråk

Hantera informationspaket i system för bevarande

Internets historia Tillämpningar

Digital arkivering och historiklagring Anastasia Pettersson och Anders Kölevik

Ramkursplan i teckenspråk för syskon till döva och hörselskadade barn

Pass 2: Datahantering och datahanteringsplaner

Ramkursplan i teckenspråk som modersmål för hörande barn till döva och hörselskadade föräldrar (CODA)

Allas rätt till språk. Läslyftet September 2018 Catharina Nyström Höög

Exempel på gymnasiearbete inom humanistiska programmet språk

9 Webbföreläsningar. 9.1 Streaming

Tvåspråkighetssatsning Manillaskolan ~^

Nytt på teckenspråksfronten i Finland

Tillgänglighet och teknologi en omöjlig möjlighet?

Tecken som stöd för tal, TSS

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

ATIVA Development AB. ATIVA-Mätdon. Produktinformation. Sidan 1 av 6

Tekniken bakom språket

Stödboken är en samling av förslag och idéer som kommit Kommunförbundet Norrbotten tillkänna under projektet Information på minoritetsspråk

Språkteknologi och Open Source

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Snabbguide till Cinahl

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Introduktion Office 365

DATABAS ÖVER PROVVÄGAR

ONSCREENKEYS 5. Windows XP / Windows Vista / Windows 7 / Windows 8

LITK10 Teckenspråk i teori och praktik I, 30 hp

PRODUKTION AV INFORMATION PÅ TECKENSPRÅK

Rolf-Allan Norrmosse. SCB:s erfarenheter av digitalisering av Bidrag till Sveriges officiella statistik (BiSOS) Paper presenterat vid konferensen

Undervisningen ska erbjuda möjlighet till anpassning av stoff efter elevernas intresse och utbildning.

Rapport från Praktik på SVOX AG till

Kursbeskrivning utbud grundläggande kurser hösten Engelska

SVENSKA. Lokal kursplan för ämnet Svenska. Kungsmarksskolan Strävansmål år 9

Förslag till Nationell strategi för skolans digitalisering

Kapitel 4 Arkivmenyn Innehåll

Frågor och svar om TNC-term

Teckenspråk i ord och rörlig bild

Laboration 0. Enhetsbokstaven anges med ett kolon efter och man läser ofta ut detta, exempelvis C:(sekolon).

Dynamisk programvara, ett didaktiskt verktyg?

Användarhandledning DORUM

Innehåll. 7. Hur vet jag vilken storlek på licensen jag har?... 19

Remissvar på betänkandet Nästa steg? Förslag för en stärkt minoritetspolitik (SOU 2017:60) Institutet för språk och folkminnens synpunkter

Remissvar på slutbetänkandet (SOU 2012:24) Likvärdig utbildning riksrekryterande gymnasial utbildning för vissa ungdomar med funktionsnedsättning

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

För sökande: Vanliga frågor om e-tjänsten 4/2011

Sök artiklar i databaser för Vård- och hälsovetenskap

TECKENSPRÅK FÖR DÖVA OCH HÖRSELSKADADE

Transkriptionskonventioner för teckenspråkstexter

Spela in och spara din PowerPointpresentation

enspr k h tec Barn oc

Maria Norberg - Josephine Willing

Egenskaper för digitala läromedel och film

1 Installationsinstruktioner

AMIRA TIME. Lätt version. Lärarhandledning

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

Teckenspråk för döva och hörselskadade

MODERSMÅL. Ämnets syfte. Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande: Kurser i ämnet

Introduktion till MySQL

AKADEMISK HEDERLIGHET HANDLAR OM ATT INTE FUSKA ELLER PLAGIERA INFORMATION OM PLAGIAT & UPPHOVSRÄTT

Referenshantering med Zotero 1

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Mälardalens högskola

Kursplan för kurs på grundnivå

Kontrastivt arbetssätt med texter på teckenspråk och svenska

Jag försöker hämta in video via Ulead programmet men får bara in bilden och inget ljud.

Får jag be om ordet!

Betyg i årskurs 6. Grundskolans läroplan Kursplan i ämnet teckenspråk för hörande

Pictogram. för dem som behöver kommunicera med bilder

FrontPage Express. Ämne: Datorkunskap (Internet) Handledare: Thomas Granhäll

Våren Nationalencyklopedin. Avancerad guide

Förutsättningar för gallring efter skanning 1 (5) Tillsynsavdelningen Datum Dnr RA /1121 Håkan Lövblad

Svensk invandringspolitik

Tilläggsmoduler & Utbildningar

Frågor och svar om ArcGIS Pro Licensiering

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare

Innehåll. 9. Hur vet jag vilken storlek på licensen jag har?... 16

Carl von Linné 300 år

Svenska Läsa

Teckenspråk Online. Beställningsinformation Artikelnummer: Best.nr: (5 licenser)

Transkriptionskonventioner för teckenspråkstexter

Teckenspråkiga och den nordiska språkkonventionen i dag och i framtiden? Kaisa Alanne Finlands Dövas Förbund rf Dövas Nordiska Råd

Introduktion till programmering och Python Grundkurs i programmering med Python

Kursplanen i svenska som andraspråk

Arbetsmaterial HTML pass 1 - Grunder

ENGELSKA FÖR DÖVA. Ämnets syfte

Om ämnet Engelska. Bakgrund och motiv

Innehåll. 9. Hur vet jag vilken storlek på licensen jag har?... 25

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

IT-körkort för språklärare. Modul 9: Rätta skrivuppgifter

TUTORIAL 3: ATT STARTA ETT NYTT PROJEKT, IMPORTERA ELLER DIGITALISERA MATERIAL, SAMT SORTERA DET.

Transkript:

Tommy Lyxell, 2009-11-23 Korpusarbete i teckenspråk Förstudie om hur korpusarbete av teckenspråk ska bedrivas på Språkrådet 1. Inledning I Språkrådets uppdrag ingår att ta fram korpusar i teckenspråk. Korpusar är en viktig källa för språkliga analyser som kan användas vid språkrådgivning och för att ta fram språklig referenslitteratur. Målet med förstudien är att undersöka hur Språkrådet kan arbeta med teckenspråkskorpusar. Denna förstudie ger en kort översikt av korpusarbetet för teckenspråk, i Sverige och internationellt, och beskriver två datorprogram som används för teckenspråkskorpusar. I punkt 2 4 beskrivs syftet med förstudien, finansiering och arbetsgång. Under punkt 5 ges en bakgrund till korpusarbete; hur teckenspråk dokumenteras, behovet av korpusar i teckenspråk och på vilket sätt språkvården har nytta av dessa. Punkt 6 tar upp hur man fäster teckenspråk i skrift. Under punkt 7 finns en beskrivning av de två datorprogram jag valt att titta närmare på: Elan och Ilex. Beskrivningen kan ibland te sig teknisk, men det är viktigt att känna till tekniken eftersom det påverkar hur man kan använda korpusarna. Under punkt 8 listas en del frågeställningar som legat utanför förstudiens uppdrag men som ändå är intressanta. Slutsatser och föreslagna fortsatta åtgärder listas under punkt 9. 2. Syfte Syftet med denna förstudie är att ta reda på hur korpusarbete i teckenspråk bedrivs på olika håll i världen och hur korpusar kan vara till hjälp för språkvården. Jag har tittat närmare på två datorprogram för korpusinsamling av teckenspråk, Elan och Ilex, för att se hur dessa kan vara till hjälp i språkvårdsarbetet. I arbetet ingick att testa programmen och ta del av teckenspråksforskningens erfarenheter av programmen och av korpusinsamling, samt att formulera en handlingsplan för korpusarbete inom språkvården. Under förstudien har flera frågeställningar väckts, bland annat: Vilka erfarenheter av korpusarbete finns samlade i världen när det gäller teckenspråk? Vilket är språkvårdens behov av teckenspråkskorpusar? Vilken roll ska Språkrådet ha vad gäller korpusarbete i teckenspråk? Vilka tillgängliga teknologier finns i dag? Hur ska äldre videoinspelningar av teckenspråkligt material bevaras för eftervärlden? På grund av projektets begränsade tid (ca 1 månads arbetstid) har jag inte kunnat gå på djupet i alla frågeställningar. Frågor som har dykt upp men inte legat i förstudiens uppdrag redovisas under punkten 8 Ytterligare frågor.

Korpusarbete i teckenspråk en förstudie Språkrådet 2 3. Finansiering och tidplan Projektet har genomförts med medel från forskningsanslaget inom Institutet för språk och folkminnen (45 000 kr, forskningsanslag 28:36). Jag har med dessa medel kunnat öka min tjänstgöringsgrad med 25 procent utöver min ordinarie halvtidstjänst under fyra månader för att göra denna förstudie. Arbetet utfördes i huvudsak under hösten 2008. 4. Arbetsgång Huvuduppgiften i denna förstudie har varit att testa och utvärdera två datorprogram som används för teckenspråk, Elan och Ilex. Båda programmen är fria och inga licensavgifter behöver betalas. Tillsammans med min kollega Tomas Hedberg och Lars Wallin, lektor på avdelningen för teckenspråk vid Stockholms universitet, gjorde jag en studieresa till Hamburgs universitet den 15 17 april 2008 för att lära mig hur Ilex fungerar. Språkrådet bjöd in Thomas Hanke, datorprogrammerare på Hamburgs universitet, för att informera om lexikografiprogrammet Ilex vid en träff som höll på Stockholms universitet den 21 november 2007 tillsammans med personal från avdelningen för teckenspråk. Den 26 maj 1 juni 2008 hölls ett LREC-seminarium i Marrakech. LREC (Language Resources and Evaluation Conference) är en samarbetsorganisation för språkteknologi och vartannat år sedan 1998 har den ordnat ett arbetsseminarium. Under de senaste åren deltar även teckenspråksforskare och teknologer i dessa seminarier. Jag har tagit del av arbetspapper från arbetsseminariet om teckenspråk som publicerades efter seminariet. Dessa ger en bra bild av korpusarbete i teckenspråk i dag. För att samla in synpunkter från användare av både Ilex och Elan har jag inhämtat information och synpunkter från olika personer. Johanna Mesch och Lars Wallin är två teckenspråksforskare vid Stockholms universitet som har testat Elan under en längre tid. Jag har ställt frågor via e-brev till en av utvecklarna bakom Elan, Han Sloetjes, vid Max Planckinstitutet i Nijmegen, Nederländerna. Jag har kontaktat teckenspråksforskare i Schweiz, Dr Penny Boyes Braem och Simone Groeber, som har erfarenhet av Ilex. För att få en bild av hur äldre videoinspelningar omhändertas har jag pratat med Helena Söderlund som är projektledare på Resursbiblioteket för döva i Örebro, Helena Fremnell Stål, informationsansvarig på Sveriges Dövas Riksförbund, Gunilla Wågström Lundqvist, producent på Utbildningsradion och Harriet Kowalski, chef på produktionsenheten vid Specialpedagogiska skolmyndigheten. Den 7 8 november 2008 hölls ett nordiskt korpusseminarium för teckenspråksforskare och lexikografer på Stockholms universitet. Språkrådets två språkvårdare deltog och jag höll ett anförande med rubriken En jämförelse mellan Ilex och Elan några tankar om teknikval inför korpusarbete i teckenspråk (se bilaga 2). I förstudien har jag annoterat ungefär två minuter teckenspråksmaterial i vart och ett av de två programmen. Det låter kanske inte mycket, men att annotera teckenspråk är tidsödande. Att annotera en minut teckenspråk kräver flera timmars arbete. Jag har bara annoterat på en

Korpusarbete i teckenspråk en förstudie Språkrådet 3 grundläggande nivå. Målet med förstudien har varit att undersöka programmens funktioner, inte att skapa en korpus. 5. Bakgrund Teckenspråksforskning har bedrivits i Sverige sedan början av 1970-talet på institutionen för lingvistik vid Stockholms universitet. Vi har i dag goda kunskaper om teckenspråkets grammatik och lexikon, men vi behöver mer kunskaper. Forskningen är fortfarande förhållandevis ung. Det första teckenspråkslexikonet i Sverige publicerades redan 1916 med namnet Teckenspråket med rikt illustrerad ordbok över det av Sveriges dövstumma använda åtbördspråket av Oskar Österberg. Under 1900-talet har det tagits fram olika lexikon för svenskt teckenspråk, men Svenskt teckenspråkslexikon från 1997 som är framtaget av Sveriges Dövas Riksförbund skiljer sig från de föregående då det är systematiserat utifrån teckenspråkets struktur, inte från svenska ord i alfabetisk ordning. I Svenskt teckenspråkslexikon kategoriseras tecknet efter hur de utförs med avseende på handform, läge och rörelse. Detta lexikon finns också i en digital version som avdelningen för teckenspråk vid Stockholms universitet har producerat. I den digitala versionen kan man se tecken och exempelmeningar med rörliga bilder, vilket bokformen av förklarliga skäl inte klarar av att visa. Avdelningen för teckenspråksavdelning har även producerat flera ämnesbundna lexikon för dvd, som kan köpas men också finns fritt tillgängliga på deras webbplats. Några exempel på ämneslexikon är Kyrkliga tecken, Tecken för matematiska begrepp och Tecken för svenska landskap och orter. Ett nytt allmänt teckenspråkslexikon för webben håller på att byggas upp inom avdelningen för teckenspråk. Den första delen publicerades årsskiftet 2008/2009 och har namnet Svenskt teckenspråkslexikon 2009. Webblexikonet kommer att successivt byggas ut så att det till slut beräknas omfatta omkring 10 000 tecken. Så småningom kommer detta lexikon att ersätta Digital version av Svenskt teckenspråkslexikon. Men när det gäller annan referenslitteratur för svenskt teckenspråk är det sämre ställt. Något som efterfrågas är en grammatikbok över svenskt teckenspråk. Det kan också finnas ett behov av andra typer av språkliga hjälpmedel, t.ex. frasordbok i teckenspråk. Betänkandet Teckenspråk och teckenspråkiga Kunskaps- och forskningsöversikt (SOU 2006:29) ger en god överblick var forskning om svenskt teckenspråk befinner sig i dag. Korpusar och språkbanker i teckenspråk Korpusar i teckenspråk behövs, något som uppmärksammades i den statliga utredningen Mål i mun: Vi föreslår att Sveriges språkråd ges ansvar även för teckenspråket och att resurser skapas för att inrätta en enhet för bl.a. korpusarbete med teckenspråket vid Språkrådet. (SOU 2002:27, s. 507). I utredningen Teckenspråket och teckenspråkiga Kunskaps- och forskningsöversikt behandlas frågan om teckenspråkskorpusar: För svenska språket, i såväl skriven som talad form, finns numera allmänt tillgängliga databaser med stora textmängder. Sådana korpora

Korpusarbete i teckenspråk en förstudie Språkrådet 4 utgör i dag oumbärliga verktyg för många olika typer av studier av svenska språket. Något motsvarande arkiv med löpande text på teckenspråk finns inte och det pågår ingen dokumentation av olika typer av teckenspråksanvändning. Detta uppmärksammas av utredningen Mål i mun som föreslår att resurser skapas för korpusarbete med teckenspråket (SOU 2002:27, s. 507). Ett brett upplagt korpusarbete behövs för såväl lexikonarbetet, som för fördjupad forskning om teckenspråkets struktur, men också för barnspråksforskning och forskning om tolkning mellan teckenspråk och svenska. (SOU 2006:29, s. 57). I instruktionen till Institutet för språk och folkminnen (SFS 2009:743) står det i 2: Myndigheten ska särskilt 1. samla in, bevara, vetenskapligt bearbeta samt sprida kunskap och material om det svenska språket, de nationella minoritetsspråken finska, jiddisch, meänkieli och romani chib, det svenska teckenspråket samt dialekter, folkminnen, folkmusik och namn i Sverige,. Våren 2007 anställdes två språkvårdare i svenskt teckenspråk som delar på en heltidstjänst. I arbetet ingår att kunna ge språkrådgivning. I språkvårdsarbetet är referenslitteratur som ordböcker, handordböcker, skrivregler och inte minst olika tjänster på internet till stor hjälp. För skrivna språk finns det gott om referenslitteratur att vända sig till. Med svenskt teckenspråk är det sämre ställt. Det beror på att forskning om teckenspråk startade så sent som 1972 i Sverige. Teckenspråket saknar ett skriftspråk vilket innebär att saknas skriftliga källor att forska i. Det är först när videotekniken kom som forskning har varit möjligt. Teckenspråk är ett språk som huvudsakligen används i levande möten mellan teckenspråkiga människor. För skrivet språk finns det flera korpusar. En del av dem är tillgängliga för allmänheten på internet. Ett exempel är SUC (Stockholm Umeå Corpus). Det är stor skillnad på att arbeta med skriven text och teckenspråk. Med text är det lätt att avgränsa orden och det är lätt att segmentera i datorer. Orden åtskiljs med mellanslag före och efter orden. Meningar startar med stor bokstav och slutar med punkt. Det är möjligt att automatiskt ordklasstagga korpusar med korpusprogram, vilket är tidsbesparande. Men man får ändå karaktärisera korpusinsamling som ett långvarigt och tålmodigt arbete. Eftersom teckenspråk saknar ett skriftspråk har man inte kunnat föra över den språkliga information till datorer på ett enkelt sätt. För att skapa korpusar för teckenspråk måste man koda om innehållet i videofilmerna till textsträngar som sedan kan bearbetas i datorprogram. På senare tid har det skapats flera korpusprogram för datorer som är avpassade för teckenspråk. Denna förstudie har tittat närmare på två av dem: Elan och Ilex. I datorprogrammen transkriberar man på samma sätt som man gjort tidigare med papper och penna. Det underlättar arbetet eftersom arbetssättet är välbekant. Datorprogrammen länkar videofilmer automatiskt till en tidslinje och flera annotationsrader kan länkas ihop. Datorprogrammen gör det också möjligt att söka i ett större material som omfattar flera olika inspelningar. Avdelningen för teckenspråk vid Stockholms universitet påbörjade i januari 2009 ett 2,5-årigt korpusprojekt finansierat av Riksbankens jubileumsfond. Forskarna kommer att göra egna inspelningar och använda annotationsprogrammet Elan. I arbetet ingår också att utveckla konventioner för hur svenskt teckenspråk kan annoteras. Språkrådet följer detta arbete med stort intresse.

Korpusarbete i teckenspråk en förstudie Språkrådet 5 I Nederländerna och Tyskland pågår det korpusarbete i teckenspråk sedan många år. Hamburgs universitet blev nyligen beviljat medel för 15 års korpusarbete och lexikografisk arbete, vilket skapar arbetsro och långsiktighet. Stockholms universitet deltar sedan tidigare i ett europeiskt samarbetsprojekt i korpusarbete. År 2003 lyckades teckenspråksforskare i några europeiska länder få medel ur ECHO-projeket (European Cultural Heritage Online), som till stor del är finansierat av EU-kommissionen. I projektet har flera berättelser från Sverige, England, Nederländerna annoterats med hjälp av transkriberingsprogrammet Elan. I detta samarbete utvecklas tankar om hur tekniken ska användas och hur korpusarbete kan bedrivas. Språkvårdens behov av korpusar och språkbanker Språkrådgivning i teckenspråk är fortfarande en liten del av verksamheten om man jämför med andra språk inom Språkrådet. Det är en ny företeelse inom teckenspråksvärlden. Men man kan anta att efterfrågan på språkrådgivning kommer att öka när arbetet på Språkrådet blivit mera känt. För att kunna ge en bra språkrådgivning är det av stor betydelse med tillgång till referenslitteratur och autentiskt språkmaterial som man kan analysera. Här följer några tänkbara situationer där språkvården i teckenspråk har nytta av korpusar. Man kan till exempel behöva: bestämma tecknens betydelseomfång genom att titta på de kontexter där tecknen används göra frekvensstudier, d.v.s. avgöra hur vanligt ett tecken är jämfört med andra tecken studera teckenvariationer göra jämförelser av språkbruk hos t.ex. unga äldre, kvinnor män, modersmålstalare andraspråksinlärare göra grammatiska analyser, t.ex. studera tecknens böjningsmönster studera förändringar i språkanvändning över tid, tidsbestämma användning av olika tecken identifiera kodväxling och översättningslån studera nyordsbildning. Språkvården i teckenspråk har ett behov av sökbara språkbanker, som kan användas vid språkrådgivning och för produktion av olika språkhjälpmedel för teckenspråk. För språkvården torde det vara viktigare att studera stora och balanserade korpusdata än att göra djupanalyser. 6. Hur teckenspråksmaterial annoteras Eftersom teckenspråket saknar ett skriftspråk är videoupptagningar det enda sättet att dokumentera teckenspråk. Det har man gjort ända sedan videotekniken för konsumentmarknaden slog igenom på 1970-talet. För forskare är det dock otympligt att hänvisa till videomaterial när man vill referera till en teckenspråkig text i forskningsrapporter. Det är också svårt att göra analyser om man inte kan göra anteckningar. Man har därför på olika sätt försökt överförda det teckenspråkliga materialet till skrift. Det är också praktiskt att kunna använda skrift i undervisningssammanhang.

Korpusarbete i teckenspråk en förstudie Språkrådet 6 Att överföra teckenspråk till skrift kallar man för att annotera eller transkribera och den text som skrivs för annotationer eller transkriptioner. Vilket ord man väljer beror på vad man avser. Med transkriptioner avses beskrivning av tecknens fonologi medan annotationer även innefattar anteckningar, som kommentarer och översättningar. I praktiken används orden annotera och transkribera ofta för samma verksamhet. Annotationer ska inte ses som teckenspråklig betydelse i skrift. Annotationer är ett verktyg som används för att beskriva olika aspekter av teckenspråklig användning ett slags partitur om man så vill. När analoga videoapparater användes, annoterade man teckenspråksmaterial för hand på skrivet papper. Videofilmerna var tidskodade och tiden noterades på det annoterade pappersarket. I dag används datorprogram, vilket har många fördelar. Datorprogrammet har inbyggda tidskoder vilket medger noggrann mätning av utförandet av tecknen. Filmerna finns i datorerna och är länkade till annotationerna, så man kan direkt se hur tecknet ser ut genom att klicka på annotationen. Med datorprogram är det enklare att göra sökningar i språkmaterialet. På flera håll i världen har man börjat göra inspelningar med fyra kameror, två riktade i halvprofil mot samtalsdeltagarna och två placerade rakt ovanför dem med fågelvy. Med kameror ovanför teckenspråksaktören kan man fånga händernas position i förhållande till bålen och huvudet. Eftersom videobilden är tvådimensionell är det svårt att bedöma handens position i en bild framifrån. Därför görs inspelningar från olika vinklar och filmerna sammanlänkas i ett datorprogram. Vi står nu inför ett skifte till HD-kvalitet, d.v.s. videokvalitet med upplösningen 1 920 x 1 080 bildpunkter, vilket ger en bättre detaljskärpa. Detta är speciellt välkommet när man ska identifiera små rörelser i ansiktet. För att praktiskt arbeta med teckenspråksmaterialet i datorer måste innehållet översättas till textsträngar som kan bearbetas i datorprogram. I den bästa av världar kan datorprogrammen tolka rörliga bilder på teckenspråk till teckensträngar. Men så långt har den tekniska utvecklingen ännu inte nått. I Frankrike pågår vissa experiment med att visuellt avkoda teckenspråk med hjälp av datorprogram. Datorprogrammet utför en avancerad bildanalys och bestämmer vilka tecken som används. Det kan jämföras med diktamensprogram som översätter tal till skrift. Även Finland har planer på att utveckla ett program för att översätta teckenspråk till text utifrån videoupptagningar. Denna teknik är fortfarande i sin linda och det dröjer många år innan det är verklighet. Tills vidare är man tvungen att annotera för hand. Att annotera korpusar är tidkrävande När man annoterar teckenspråk kan man välja hur detaljerad analysen ska vara. Man kan nöja sig med att nedteckna de manuella tecknen, de s.k. glossorna. En glossa är ett sätt att namnge tecken med ett skrivet ord; en utbredd konvention bland teckenspråksforskare är att skriva med versaler och använda infinitivformen ifall det är ett verb. Man väljer ofta en glossa utifrån tecknets betydelse. För att referera till tecknet äta skriver man ÄTA. Man väljer oftast ett svenskt ord som ligger nära betydelsen. Tecknet kan ibland ha en annan form och ibland kan ett tecken ha en annan betydelse i ett annat sammanhang. Det är viktigt att inte byta glossor för samma tecken beroende på sammanhanget, eftersom det kan göra korpusar oanvändbara. Teckenspråk består också av teckenböjningar och syntaktiska signaler. Oftast väljer man att beskriva dessa på separata rader. I detaljerade analyser kan det bli många annotationsrader.

Korpusarbete i teckenspråk en förstudie Språkrådet 7 Att annotera tar tid. Lexikografer vid Hamburgs universitet beräknar att en minut teckenspråk på video kan ta 2 3 timmar att annotera. Väljer man att göra en djupare analys tar det ännu mer tid. Räknar man med tiden för planering, inspelning och digitalisering av teckenspråksmaterialet får man räkna med ännu mer tid. Det saknas idag konventioner för hur annotationer ska göras, vilket leder till att varje annotatör väljer sitt eget beskrivningssätt. Så länge anteckningar används i en snäv krets människor fungerar det. Men om utomstående ska förstå anteckningarna är det nödvändigt att samtidigt ha tillgång till det filmade teckenspråkliga materialet. Det pågår arbete med att skapa annotationskonventioner både i Sverige och i andra länder. Metadata för korpusmaterial i teckenspråk, IMDI I annotationerna är också viktigt att få med metadata, som till exempel aktörernas språkliga bakgrund (första- eller andraspråk, språklig hemmiljö, skolgång etc.), inspelningstillfälle (plats, hur många kameror som har använts, videoupplösning etc.), ålder och kön. För korpusarbete i talade språk har det utvecklats en standard för metadata inom EAGLES/ISLE Meta Data Initiative (IMDI). ISLE står för International Standard for Language Engineering. Denna standard används vid dokumentation av multimodala språkupptagningar, bl.a. har det använts vid Språk- och litteraturcentrum vid Lunds universitet. Som en del av ett europeiskt samarbetsprojekt ECHO-projektet, som påbörjades 2003, togs det fram ett förslag till standard för metadata för teckenspråkligt material

Korpusarbete i teckenspråk en förstudie Språkrådet 8 7. Två program som används vid korpusinsamling av teckenspråksmaterial Jag har tittat närmare på två datorprogram som kan användas till korpusinsamling på teckenspråk. Det ena heter Elan och är utvecklat vid Max Planck Institute for Psycholinguistics i Nijmegen i Nederländerna. Den andra heter Ilex och är framtaget av Teckenspråksavdelningen vid Hamburgs universitet. Dessa är varken de första eller de enda programmen i sitt slag. Exempel på andra program som funnits och fortfarande används i teckenspråksvärlden är Signstream, Syncwriter, Esign och Anvil. Nedan följer en kort beskrivning av Elan och Ilex med en kort beskrivning av några för- och nackdelar med respektive program, som jag noterat under förstudien. Bedömningen ska inte ses som uttömmande. Båda programmen har funnit i några år de första versionerna lanserades i början av 2000-talet och nya versioner utkommer med jämna mellanrum. Programmen har nått en viss mognad vilket betyder att de inte dras med några allvarliga barnsjukdomar. Elan befann sig i version 3.6 när denna studie gjordes och Ilex i version 5.0. Utvecklarna av båda programmen är lyhörda för synpunkter på hur programmen kan utvecklas. För att kunna hantera rörliga bilder förlitar sig både Elan och Ilex på att man har programmet Quicktime installerat i datorn. Två saker som jag tycker är viktigt med ett korpusprogram är att: 1) det bygger på en öppen standard, vilket borgar för att programmen kommer att underhållas under lång tid framöver. 2) språkmaterialet kan användas flexibelt. Det ska i framtiden vara möjligt att studera språkmaterialet på ett sätt som inte förutsågs när informations samlades in och lagrades. Elan Elan (Eudico Linguistic Annotator) utvecklades från början för att användas vid gestforskning inom psykolingvistik. Teckenspråksforskare på olika ställen i världen har funnit programmet användbart då arbetssättet att göra teckenspråkstranskriptioner är densamma som teckenspråksforskare är vana vid. De som har transkriberat manuellt på pappersark finner sig snart till rätta. Arbetssättet är detsamma i Elan. Det finns ett nära samarbete med utvecklarna av Elan, och dessa har varit lyhörda för synpunkter från teckenspråksforskarna och lagt till nya funktioner som passar teckenspråksforskningen. Elan används i dag av teckenspråksforskare i flera länder i Europa. Det är speciellt användbart i undervisning, eftersom det är lätt att dela med sig av annoteringsfiler via e-post. All information finns samlat i ett dokument. Det är relativt lätt att komma igång med programmet. Programmet förlitar sig på att man har en s.k. javamotor installerat i datorn. Program som är skrivna för programmeringsspråket Java kan med lätthet föras över till olika datormiljöer.

Korpusarbete i teckenspråk en förstudie Språkrådet 9 Nedan följer några för- och nackdelar med Elan. Fördelar med Elan är att: programmet har ett överskådligt gränssnitt man kan se fyra synkroniserade filmer från olika vinklar samtidigt det är lätt att dela med sig av annotationer (eaf-filer) annoteringsfilerna är Unicode-formatterade och sparas i XML-format vilket är en öppen standard det går att söka i flera dokument det går att lämna tomrum mellan tecken, tiden för rörelseförflyttningar mellan tecknen syns det går att göra konkordanssökningar (om än begränsade) programmet är översatt till svenska programmet finns i versioner för MacOS X, Windows och Linux Nackdelar med Elan är att: glossor för tecken skrivs manuellt, vilket ökar risken för felstavning och olika beteckningar sökmöjligheterna är begränsade. Länka Elan med ett lexikon Max Planck Institute i Nijmegen har även utveckla ett lexikonprogram som heter Lexus. Man har nu tittat på hur man kan sammanlänka Lexus med Elan och börjat utveckla ett nytt program. När detta program är klart en första version beräknas vara klart under 2009 förbättras Elans funktionalitet avsevärt. Det innebär att man undanröjer problemet att skapa olika glossor för samma tecken.

Korpusarbete i teckenspråk en förstudie Språkrådet 10 Ilex Ilex (Integrated Lexicon) har utvecklas och underhålls av Institutet för tyskt teckenspråk vid Hamburgs universitet. Programmet bygger på det standardiserade databaspråket sql (structured query language), vilket tillåter kraftfulla sökmöjligheter. De flesta relationsdatabaser som finns i dag bygger på detta språk. Ilex består av två delar, en server- och en klientprogramvara. Serverprogrammet (databasmotorn) PostgreSQL är en fri programvara. Klientprogrammet Ilex är programmet som finns i användarens dator och som användaren använder för att komma åt informationen i databasen. Programmet Ilex har inte fått samma spridning som Elan. En anledning till detta kan bero på att det är komplicerat att komma igång med Ilex. Det har krävts mycket kontakt via e-brev med utvecklaren Thomas Hanke för att få programmet att fungera under denna förstudie. En annan anledning till den begränsade spridningen är att Ilex tidigare bara funnits i en MacOS X- version. I dag finns Ilex även för Windows. Vid Hamburgs universitet används Ilex i lexikografiskt arbete. Utifrån korpusmaterial sammanställs olika ämnesbundna lexikon som psykologi, snickeri, hälso- och sjukvård, socialarbete, landskaps- och trädgårdsarkitektur. Programmet har utvecklats med avsikt att ha en stark koppling mellan lexikon och korpusmaterial. Detta är programmets främsta styrka. Utvecklaren kallar detta för token-type matching. En risk med manuell annotering är annars att varje annotatör skapar egna konventioner för att nedteckna tecken. Om ett tecken beskrivs med olika glossor blir korpusmaterialet oanvändbart vid till exempel frekvensstudier. Länkas däremot varje förekomst av tecken i korpusen till ett lexikon så undviker man variationer av glossor. Behöver man ändra glossan för ett visst tecken i lexikonet kommer alla förekomster i korpusarna att ändras, vilket är tidsbesparande.

Korpusarbete i teckenspråk en förstudie Språkrådet 11 Nedan följer några för- och nackdelar med Ilex. Fördelar med Ilex är att: det är en kraftfull databashanterare flera användare på olika platser kan hämta och lägga till information i samma korpusdatabas det finns en stark koppling till lexikon, vilket minskar risken o för felaktiga annoteringar o att flera tecken att få samma glossa programspråket sql ger möjligheter till att utforma egna sökvillkor programmet har export-/importmöjligheter till Filemaker, Elan Ilex finns i versioner för MacOS X och Windows Ilex kan använda avatarer (animerade datorfigurer) till transkriptionssystemet HamnNoSys. Nackdelar med Ilex är att: det ännu inte finns i svensk version utan bara på tyska, engelska och nederländska. man är beroende av datorprogrammerare plottrigt gränssnitt segmentering måste göras när filmen spelas upp, vilket leder till att klippunkterna ofta hamnar fel och måste korrigeras i efterhand man bara kan visa en film åt gången i programfönstret tidslinjen är inte synkroniserad med filmen i horisontellt läge.

Korpusarbete i teckenspråk en förstudie Språkrådet 12 Sökningar i korpusprogrammet Att annotera är en del av korpusarbetet, men det verkligt intressanta är hur man kan göra sökningar i materialet. Kan man inte söka i språkmaterialet är nyttan av annoteringsarbetet begränsad. Jag har inte hunnit utforska programmens sökfunktioner på djupet eftersom jag inte haft mycket material att utgå från. Sökfunktionerna är något som behöver utvärderas mer. I Elan kan man göra konkordanssökningar. Genom menyvalet Sök->Sök i flera eaf-filer kan man hitta alla förekomster av en valfri söksträng och se annotationsceller närmast före och efter det sökta tecknet. Det är också möjligt att göra frekvensökningar. Det är möjligt att söka i flera dokument, men däremot har jag inte lyckats göra konkordanssökningar i ett enskilt dokument. Ilex har också sökmöjligheter där man kan få fram tecknens kontexter och förekomster. Olika sökvillkor kan skapas med det inbyggda skriptspråket sql. Jag har inte kunnat testa detta eftersom jag inte är kunnig i programmering. Det kan vara värt att påpeka att det är tecknet man oftast vill studera när man gör sökningar, inte annotationen av tecknet. Därför är det viktigt att bevara länken mellan transkription och videofilm. Annotationen finns för att datorerna ska kunna göra sökningar. Ibland kan det dock räcka med att studera sökningar av transkriptioner, t.ex. vid frekvenssökningar. Olika sätt att lagra och bearbeta data Elan och Ilex bygger på två olika principer för hur datan organiseras. Elan är dokumentcentrerat. Annotationer sparas i dokumentfiler, som har länkar till videofilmer. Dokumentens filformat följer xml-standarden (extensible Markup Language), vilket betyder att både data och taggning finns i samma dokument. Xml är en öppen standard och får sägas vara framtidsäkert. Eftersom all information finns i samma dokument är det lätt att flytta filerna, och skicka dem via e-post. Det är en fördel i undervisningssammanhang. Fast vill man se filmerna måste dessa finnas i datorn. Det är viktigt att mappstrukturen ligger fast; flyttar man på dokumenten eller videofilmerna så förloras länkarna. Ilex bygger på sql (Structured Query Language) och innebär att all information finns i en databas. Med hjälp av sql-anrop hämtar man de data man är intresserad av. Ilex är programmet man arbetar i, men alla data som filmer, annotationer finns på en server som Ilex är uppkopplad till. Flera personer kan jobba med samma korpusmaterial. Se principskissen nedan.

Korpusarbete i teckenspråk en förstudie Språkrådet 13 Vilket program är bäst? Frågan man ställer sig är vilket program som är bäst för generellt korpusarbete. I denna förstudie har jag bara hunnit börja studera programmen och inga slutsatser kan dras i detta skede. Av de första intryck jag fått av programmen tilltalas jag av Ilex kraftfulla databasmotor och flexibiliteten att utforma sökvillkor. Det kräver dock mycket tekniska kunskaper av sina användare. Elan är ett smidigt program att göra annotationer med. Det har ett överskådligt gränssnitt och möjlighet att arbeta med många bildvinklar. Det är speciellt användbart i undervisningssammanhang. Däremot är jag osäker på om Elan kan klara av att hantera stora korpusar. Stockholms universitets korpusprojekt får ge en fingervisning om detta. Språkrådet behöver fortsätta att utvärdera olika korpusprogram. Framför allt är det viktigt att ta fram en kravspecifikation för ett korpusprogram för teckenspråk. Tekniken ska inte styra arbetssättet utan ska istället utformas efter de behov man har. Utveckla ett nytt korpusprogram? Datorprogram utvecklas för de behov som verksamheten har. Ilex är i grunden ett lexikografiskt program och Elan är ett annotationssprogram. Man kan fundera på om det behöver utvecklas ett mer generellt korpusprogram för teckenspråk. Fördelen med ett generellt korpusprogram för teckenspråk är att man kan organisera informationen på det sätt man önskar. Nackdelen är att det är väldigt kostsamt att utveckla ett program. Dessutom måste avsätta resurser för att underhålla programmet. Eftersom korpusarbete pågår på flera håll i Europa kan man tänka sig söka EU-pengar för att utveckla ett generellt korpusprogram för teckenspråk. Eller så kan man till en början utveckla ett nordiskt samarbete. Fortsatt testning av Ilex och Elan får utvisa om behovet av att utveckla ett nytt korpusprogram är nödvändigt.

Korpusarbete i teckenspråk en förstudie Språkrådet 14 8. Ytterligare frågor I arbetet med korpusinsamling för teckenspråk finns det några frågor som måste lösas. Här nedan listas några av de frågor jag stött på under förstudien och som man behöver gå vidare med. Konventioner för taggning En glossa är en etikett som man ger ett tecken. En vanlig konvention är att med versaler skriva tecknet med ett svenskt ord som ligger nära tecknets betydelse. Men det saknas ett standardiserat annotationssystem för teckenspråk i Sverige och i världen. Om man beskriver varje tecken på olika sätt leder det till att sökningar i korpusmaterialet blir otillförlitliga. Det är därför viktigt att arbetet samordnas så att annoteringarna blir samstämmiga. Teckenspråksforskare vid avdelningen för teckenspråk vid Stockholms universitet fick medel från Erik Wellanders fond och gjorde en liten studie hösten 2008 om hur man kan standardisera annotering i svenskt teckenspråk. Detta arbete presenterades vid nordiskt korpusseminarium för teckenspråk på Stockholms universitet den 7-8 november 2008. Arbetet med att skapa konventioner för svenskt teckenspråk fortsätter i det korpusprojekt som startade i januari 2009 vid avdelningen för teckenspråk. Det återstår en hel del arbete på detta område. Aktör eller avatar När man gör inspelningar av teckenspråk är identiteten på den filmade personen uppenbar. Det går inte att anonymisera berättelser på samma sätt som i skrivna texter. Detta kan skapa problem om personen inte vill att materialet ska bli offentligt. Ett sätt att komma runt problematiken är att låta en teckenspråksaktör återberätta texten, men risken är att texten blir förändrad i återberättandet. En annan lösning är att låta avatarer presentera teckenspråkstexter. Ilex har möjlighet att koppla Hamnosys som är ett transkriptionssystem utvecklat för tyskt teckenspråk men också används i andra länder till avatarer som kan visa tecknet. En nackdel är att teckenspråket kan uppfattas som stelt och verklighetsfrämmande när det framförs av en datoranimerad figur.

Korpusarbete i teckenspråk en förstudie Språkrådet 15 QuickTime och en TIFF (LZW)-dekomprimerare krävs för att kunna se bilden. Det mest framkomliga är nog att försäkra de inspelade att materialet bara kommer användas av forskare. Man kan vid inspelningstillfället upprätta ett kontrakt om hur materialet får användas; om bara forskare får använda det eller om det även ska vara tillgängligt för allmänheten. Fånga naturligt språkbruk Studiosamtal eller fältinspelningar, vilket är bäst? Av inspelningstekniska skäl görs de flesta korpusinspelningar i studiomiljö. Det är lättare att kontrollera ljusförhållanden och aktörernas placeringar. Idealet vore att kunna fånga naturliga samtal i offentliga miljöer. Men det kräver att de som fångas på video är informerade, och att ger sitt medgivande till inspelningar. Samtal i studio utan fasta ramar brukar kallas semispontana. I bästa fall glömmer aktörerna att det finns en kamera i rummet och producerar ett teckenspråk som de skulle ha gjort i en otvungen samtalsmiljö. Segmentering av tecken Var börjar och slutar ett tecken? Precis som i talade språk finns det en ström av språklig information som hjärnan avkodar. Detta är normalt sett inget problem för infödda teckenspråkstalare, men nybörjare i teckenspråk har ofta svårt att avgöra var ett tecken börjar och var det slutar. Start och slutpositioner för tecken varierar beroende på de omgivande tecknens placering. Ska tiden mellan tecknen betraktas som transportsträckor eller är de en del av tecknet? När man annoterar korpusar är det viktigt att fundera på dessa frågor.

Korpusarbete i teckenspråk en förstudie Språkrådet 16 Automatiserad segmentering Det forskas i dag kring hur man kan göra automatisk segmentering och taggning av teckenspråksmaterial. En del försök görs i Frankrike. Forskningscentralen för inhemska språk i Finland har under 2008 lämnat in en projektansökan för ett projekt som ska ta fram verktyg för automatisk segmentering av finskt teckenspråk. Balanserade korpusar För att kunna skapa balanserade korpusar krävs olika typer av språkmaterial. Stockholms universitet har gjort en del inspelningar av monologer, men det saknas inspelningar av dialoger. Andra texttyper man kan undersöka är formella och informella sammanhang, teckenspråk som används i medier, informationsvideor etc. Språkarkiv för teckenspråk För att kunna göra korpusar behövs språkmaterial att studera. I dag produceras teckenspråksmaterial hos olika tv- och videoproducenter, t.ex. Sveriges Dövas Riksförbund, SVT, UR och Specialskolemyndigheten. När hemmavideotekniken slog igenom i mitten av 1970-talet började det göras inspelningar på teckenspråk. Dessa inspelningar är viktiga historiska dokument. I språkvårdsarbetet studerar vi hur bruket av teckenspråket förändras över tiden. Analoga inspelningar på VHS, U-matic och gamla videoformat slits och blir gamla. Det är bråttom att överföra materialet till digital teknik så att materialet inte förgås och blir oanvändbart. Ansvaret för att bevara och digitalisera analogt videomaterial ligger för närvarande hos varje videoproducent. Det behövs ett samordnat arbete. Institutet för språk och folkminnen bör ta på sig rollen att skapa ett teckenspråkligt riksarkiv, dit videoproducenter och privatpersoner kan överlämna material som är värt att bevara för eftervärlden. Även nyinspelat material bör samlas in fortlöpande. Men detta material behöver inte digitaliseras eftersom dagens videokameror är digitala. Språkrådet kommer i framtiden troligen att genomföra egna inspelningar. En del av detta material kan överlämnas till språkarkivet. Riksarkivet bör vara öppet för språkvården, forskare och studenter. Ett teckenspråkligt riksarkiv kan ha en positiv effekt på teckenspråkforskning vid olika lärosäten inte bara vid Stockholms universitet och det underlättar arbetet med att ta fram referenslitteratur och läromedel för svenskt teckenspråk. Inspelningarna kan också vara till nytta för folklivsforskning på samma sätt som dialektarkiven är det.

Korpusarbete i teckenspråk en förstudie Språkrådet 17 9. Slutsatser och förslagna åtgärder Språkrådet behöver följa den tekniska utvecklingen och utvärdera olika korpusverktyg. Det är för tidigt att säga att något av de korpuverktyg som jag tittat närmare på möter språkvårdens behov. Fortsatt testning behöver göras. Genom att använda korpusprogram lär man sig vilka specifika behov det finns för korpusarbete i teckenspråk. Kunskaperna kan sedan användas för att ta fram tydliga kravspecifikationer för hur korpusprogram ska utvecklas. Det är viktigt att språkvården är med och styr programutvecklingen i önskad riktning. Språkvetare behöver samarbeta med datorexperter och datorlingvister. Korpusarbete i teckenspråk är ett långsiktigt arbete som måste utvärderas kontinuerligt. Språkrådet bör: köpa in en speciellt avsedd dator för fortsatt utvärdering av korpusprogram samarbeta med teckenspråksforskare i Sverige och i andra länder om korpusarbete samarbeta med datorexperter och datorlingvister hålla kontakt med programutvecklare av datorprogram för att påverka utformning och design av programmen utforma en kravspecifikation på hur ett korpusprogram ska se ut arbeta för att inrätta ett teckenspråksarkiv som är tillgängligt för språkvården, teckenspråkforskare och studenter söka pengar till större korpusprojekt i teckenspråk, antingen på egen hand eller i samarbete med andra nationella och internationella institutioner. För att utföra detta arbete behöver Språkrådet också anställa flera personer. Två halvtidstjänster för språkvård i teckenspråk räcker inte. Stockholm den 23 november 2009 Tommy Lyxell Språkvårdare i teckenspråk Språkrådet Bilagor: Projektansökan Artikel vid nordiskt korpusseminarium 7 november 2008, En jämförelse mellan Ilex och Elan några tankar om teknikval inför korpusarbete i teckenspråk.

Korpusarbete i teckenspråk en förstudie Språkrådet 18 Referenser: König, L., König, Konrad, R., Langer, G. (2008). Corpus-bases Sign Dictionaries of Tecknical Terms Dictionary Projects at the IDGS in Hamburg. Paper URL: http://www.lrecconf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Drew & Hermann (2008), Towards Automatic Sign Language Annotation for the Elan Tool. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Johnston, T (2008), Corpus linguistics and signed languages: no lemmata, no corpus. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Crashborn, O (2008), The Corpus NGT: an online corpus for professionals and laymen. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Crashborn, O., Sloetjes, H. (2008), Enhanced Elan functionality for sign language corpora. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Lefebvre-Albaret, F., Gianni, F., Dalle, P. (2008), Toward an computer-aided sign segmentation. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Mesch, J., Wallin. L (2008), Use of sign language materials in teaching. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Hanke. T, Storz. J (2008), Ilex A Database Tool for Integrating Sign Language Corpus Linguvistics and Sign Language Lexicography. Paper URL: http://www.lrecconf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Herrman. A (2008), Sign language corpora and the problems with Elan and the ECHO annotation conventions. Paper URL: http://www.lrec-conf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf Prillwitz. S, Hanke. T, König. S, Konrad. R, Langer. G, Schwarz. A (2008), DGS Corpus Project Development of a Corpus Based Electronic Dictionary German Sign Language / German. Paper URL: http://www.lrecconf.org/proceedings/lrec2008/workshops/w25_proceedings.pdf ECHO project, Case study 4: sign languages, Radboud University Nijmegen. URL: http://www.let.kun.nl/sign-lang/echo/index.html ISLE Meta Data Initiative (IMDI). URL: http://www.mpi.nl/imdi/ IMDI Browser, URL: http://corpus1.mpi.nl/ds/imdi_browser/ Crasborn, O., Hanke, T. (2003), Additions to the IMDI metadata set for sign language corpora, Nijmegen University. URL: http://www.let.ru.nl/signlang/echo/docs/signmetadata_oct2003.pdf

Korpusarbete i teckenspråk en förstudie Språkrådet 19 Mål i mun Förslag till handlingsprogram för svenska språket (SOU 2002:27) Teckenspråk och teckenspråkiga Kunskaps- och forskningsöversikt (SOU 2006:29) Konsekvensanalys av lokalisering av SVT Teckenspråk (Ku 2008/358/MFI) Datorprogrammet Elan, URL: http://www.lat-mpi.eu/tools/elan/ Datorprogrammet Ilex, URL: http://www.sign-lang.uni-hamburg.de/ilex/ PostgreSQL Global Development Group, URL: http://www.postgresql.org/ World Wide Web Consortium, Svenska W3C-kontoret, XML i tio punkter. URL: http://www.w3c.se/resources/office/translations/xml-in-10-points_sw.html Institutionen för lingvistik, Avdelningen för teckenspråk, Stockholms universitet, Svenskt teckenspråkslexikon 2009, URL: http://www.ling.su.se/pub/jsp/polopoly.jsp?d=10567 Språkbanken: http://spraakbanken.gu.se/ Stockholm Umeå Corpus: http://www.ling.su.se/pub/jsp/polopoly.jsp?d=4664 Korpus för det svenska teckenspråket: http://www.ling.su.se/pub/jsp/polopoly.jsp?d=12405 Förslag till annotation av teckenspråkstexter: http://www.ling.su.se/content/1/c6/05/76/60/korpussemin8nov2008.pdf Ordlista Annotation Annotatör Avatar Glossa Teckenspråksaktör Transkription anteckningar som rör tecken, grammatiska markörer i teckenspråket, översättningar och andra kommentarer. en person som gör annotationer. en elektronisk representation av en person, en datoranimerad figur. ett sätt att återge tecken med ett skrivet svenskt ord. Konventionen är att använda versaler och ordens grundform (infintivform eller obestämd singular), t.ex. SPRINGA, HUS. När man behöver beskriva tecknets böjningsform görs det efter glossan med ett inledande bindestreck och med gemener, t.ex. GE-m-v. Glossan ska betraktas som en etikett och inte som en översättning av tecknet. Tecknets betydelseomfång kan skilja sig från det svenska ordet. en person som framför tecken eller teckenspråksmeningar i videoupptagningar ett sätt att återge teckenspråket fonologi i skrift med hjälp av speciella teckensymboler. I Sverige används ett teckensystem som är utvecklat av avdelningen för teckenspråk vid Stockholms universitet. Man har också tagit fram ett teckensnitt, Brita, för användning i datorer.