Introduktion till transkription i CHAT med länkning av audiofiler Victoria Johansson Humanistlaboratoriet, Lunds universitet it-pedagog@sol.lu.se 20 november 2006 1 Inledning Detta är en handledning som introducerar transkriptionssystemet minchat och visar hur man kan länka audiofiler till CHAT-transkriptionerna. Denna handledning är särskilt anpassad till transkriptörer inom projektet SveDiaSyn. 2 CHILDES-världen 2.1 CHILDES CHILDES är en akronym för the Child Language Data Exchange System. Detta är en samlingsplats för (främst) barnspråksforskare över hela världen som använder sig av transkriptionssystemet CHAT och verktygsprogrammen CLAN. Sajten har flera olika mejlinglistor (t ex en för frågor om barns språkutveckling, eller en för frågor av mer teknisk karaktär kring CLAN-programmen och transkriptionssystemet CHAT). CHILDES-forskarna delar ofta med sig av sina insamlade data (det går att ladda ner transkriptioner, och i vissa fall ljudfiler, från inspelningar på många olika språk!). På mejlinglistorna är folk också frikostiga med att dela med sig av tips kring transkription och analyser! Förutom transkriptionssystemet och programpaketet för att analysera transkriptioner har organisationen alltså stora databaser av barnspråkssamlingar på många olika språk, samlad information om olika metoder att koda tal, och verktyg för att länka transkriptoner till digitaliserat audio- och videomaterial. Alltihop finns gratis tillgängligt från CHILDES hemsida: http://childes.psy,cmu.edu. Initiativtagare till CHILDES är Brian McWhinney. Han är väldigt angelägen om att fortsätta utveckla CLAN-programmen och transkriptionssystemet CHAT, vilket innebär att det ständigt kommer uppdaterade versioner. De 1
senaste åren har systemet utvecklats framför allt för att länkningen till audiooch videomaterial ska förenklas. Om du har laddat ner en ny version av CLAN och upptäcker att programmet inte beter sig som förut är det i allmänhet enklast att mejla direkt till Brian McWhinney (macw@cmu.edu) och påtala problemet. Han brukar vara snabb att svara, och också snabb på att rätta till det som gått fel. 2.2 CHAT De forskare som jobbar med CHILDES använder sig i allmänhet av en särskild transkriptionsstandard: Codes for the Human Analysis of Transcripts, CHAT. Vi kommer titta mer på hur denna standard ser ut nedan 1. 2.3 CLAN Denna labbhandledning presenterar CHILDES programpaket som kallas CLAN (Computorized Language ANalysis). CLAN används av barnspråksforskare över hela världen, det är gratis och är ett verktyg för att analysera samtalsinteraktion. Programpaketet CLAN innehåller många mindre program med vars hjälp man kan utföra automatiska analyser på transkriptioner, främst sådana i det s k CHAT-formatet (se ovan). 2.4 Ladda ner CLAN-programmet Du kan transkribera i CHAT-formatet utan att ladda ner CLAN-programmen, men arbetet underlättas avsevärt om du har CLAN på den dator där du arbetar. Med CLAN installerat kan du t ex enkelt kontrollera att det inte uppstår några fel i din transkription. När du ska länka audiofiler till transkriptionern är det dessutom nödvändligt att ha CLAN installerat. CLAN fungerar både på Mac och PC (och även i Unix-miljö) 2. Gör så här för att ladda ner programmet: Du laddar ner programmet från CHILDES hemsida: http://childes.psy.cmu.edu/ Gå till rubriken Programs and database, och klicka på länken The CLAN program. Du kommer då till en sida där du kan välja vilken version du vill ladda ner. Här finns också tämligen utförliga instruktioner för hur nedladdningen ska gå till. Grundinställningen är att programmet installerar sig direkt under \C:(Den här datorn) på pc, och direkt i programmappen på Mac (OSX). Du kan förstås specificera någon annan plats om du föredrar det. 1 Det är också möjligt att vid behov använda sig av filer med annan standard, men det blir svårare att köra CLAN-analyser; vissa analyser går inte alls att köra. 2 Programmet brukar dock vara aningen mer stabilt på Mac... 2
När du sätter igång och transkriberar är det också bra att ha de olika manualerna till hands. Ständigt uppdaterade manualer finns också på hemsidan. Ladda åtminstone ner den manual som handlar om CHAT-transkriptioner: filen CHAT.pdf. Du hittar den under rubriken Manuals (in pdf) på CHILDES hemsida. Du kan också ladda ner manualen CLAN.pdf om du vill veta mer om CLANprogrammen. 3 Transkription Att transkribera i CHAT-formatet innebär att man måste följa några grundläggande villkor för hur en transkriptionsfil ska vara uppbyggd. Det går sedan att göra många ytterligare detaljspecifikationer, men om man åtminstone uppfyller baskraven kan man sedan lägga till de detaljer som är nödvändiga för just det syfte man har med transkriptionen. De transkriptioner som är utförda enligt CHAT-formatet består av en fil som har filextensionen.cha. Filerna brukar kallas chat-filer. I princip kan du transkribera i vilket ordbehandlingsprogram som helst, bara du följer standarden. Det du måste tänka på är att spara din fil som Endast text, och att ge den filextensionen.cha. 3.1 Innehållet i en CHAT-transkription Headers Varje transkription måste inleds med ett antal rader som hör till den s k headern, transkriptionens huvud, eller inledning. Dessa rader inleds med @. Observera att det också allra sist i transkriptionen finns en rad som heter @End. Observera: Alla rader i headern inleds med @. Det är viktigt att raderna i headern kommer i just den ordning som anges ovan. Du ska ange vem som gjort transkriptionen/glossningen, ljudfilens namn och orten där inspelningen gjorts. Efter @Warning ska du ange om filen innehåller en transkription eller en glossning. Använd följande mall för headers (2 exempel): @Begin @Languages: sv @Participants: OM1 äldre_man1 Adult, INT intervjuare Investigator @ID: sv male 3
@Coder: Henrik Rosenkvist @Location: Stenberga @Comment: ljudfilen finns i SweDias material, i Stenbergamappen (ste_om_1sp.wav) @Warning: transkription, INT ej transkriberad utan glossad @Begin @Languages: sv @Participants: YM2 yngre_man2 Adult, INT intervjuare Investigator @ID: sv male @Coder: Fredrik Persson @Location: Bengtsfors, Dalsland @Comment: ljudfilen finns i SweDias material, i Bengtsforsmappen (ben_ym_2sp.wav) @Warning: glossning; Mirjam koll ok Förklaring till innehållet i Headern: @UTF8 Allra överst i filen ska du skriva @UTF8. Detta kommer inte att synas i CHAT-filen om du öppnar den i CLAN, men kommandot talar om att du skriver i Unicode-format, och är nödvändigt för att programmet ska kunna läsa t ex bokstäverna ååö korrekt. @Begin inleder transkriptionsfilen. @Languages anger vilket språk som talas i transkriptionen. @Participants anger vilka som deltar i den inspelning som du transkriberar. Varje deltagare tilldelas en trebokstavs/siffer-kod (t ex YM2 eller INT ). Efter att man angett koden följs en beskrivning av vad koden står för (t ex yngre_man2 eller Intervjuare). Till sist anger man den roll som talaren har (t ex Adult eler Investigator). Det finns ett antal fördefinierade roller som det är säkrast att hålla sig till 3. @ID ger en identitet till filen. Du kan välja mellan sv male (när deltagaren är man) och sw female (när deltagaren är kvinna). @Coder anger verm som transkriberat och kodat filen. @Location anger var inspelningen har skett, dvs i det här fallet den geografiska informationen. @Comment anger till vilken ljudfil transkriptionen är länkad. @Warning anger om det handlar om en transkription eller en glossning, och eventuella kommentarer om detta. @End Allra sist i transkriptionen ska raden @End finnas. Den anger att transkripitionen är slut, och CLAN kommer inte att kunna analysera filen om denna rad saknas. Denna ska skrivas direkt (dvs utan mellanrad) efter transkriptionens slut! 3 Man kan dock skapa vilka roller man vill, men för att programmet inte ska klaga när man kontrollerar transkriptionen (med CHECK) så behöver koderna skrivas in i Lib-filen. 4
Main line Huvudraderna, eller main lines innenhåller information om vad som sägs. Alla main lines inleds med en stjärna (*), sedan följer en trebokstavskod (unik för varje talare), ett kolon och så en tabb. Varje talare har en egen personlig kod, bestående av tre bokstäver (eller siffror). Vem som är vem anges i Headern (se mer nedan). CLAN gör automatiska radbrytningar, så du ska endast använda return/enter när det är en ny talare, en ny makrosyntagm, eller när du ger en kommentar till mane line. Nedan är ett exempel på några transkriptionsrader (ur fao_om_3sp.tra.cha). Lägg märke till följande: Hur talarraderna är uppbyggda: *INT1: tab. Alla rader avslutas med ett mellanslag och sedan en punkt (.). Alla transkriptionsrader (main lines) måste avslutas med ett stort skiljetecken: punkt (.), frågetecken(?) eller utropstecken (!). Det normala är att man använder punkt. Utropstecken används vid direkta utrop eller uppmaningar, och frågetecken om det är fråga om frågeintonation. Kommatecken används för att markera frasgränser. En talare kan förekomma flera gånger efter varandra, eftersom man väljer att ta ny rad vid varje makrosyntagm (ungefär). (Läs mer i häftet Transkription och direktglossning av dialektinspelningar i SweDiaSyn.) Man använder endast små bokstäver när man transkriberar. Stora bokstäver används för egennamn 4. Man har här använt sig av en ljudnära överföring vid transkriptionen (läs mer i häftet Transkription och direktglossning av dialektinspelningar i SweDiaSyn.) Diverse symboler för att ange pauser, repetitioner och omtagningar finns med (inom hak- och vinkelparenteser) i transkriptionen. CHAT har särskilda standarder för dessa, men inom varje nytt transkriptionsprojekt brukar man definiera vilka man ska använda (läs mer vad som ska anges och hur i häftet Transkription och direktglossning av dialektinspelningar i SweDiaSyn ). Utdrag ur en transkription: *INT1: vart ä du uppvucksen [//] ä du uppvucksen på en gård, berätta hur de var, din barndom å, å? OM3: nja <vi va> [/] ## vi va nie syskån. OM3: å eh ## fiem [/] fiem grabba å fyre töisar. 4 Bokstaven N på första raden i exemplet är ett sätt att anonymisera en person (N=Name) i transkriptionen. 5
Comment tiers Det går också att till varje transkriptionsrad knyta ett antal kommentarrader (comment tiers). Dessa inleds alltid med % och en trebokstavskod. Exempel på sådana är %mor som anger morfologisk kodning, eller %tim som anger var på ett audioband man kan hitta det som är skrivet i transkriptionen. Du kommer i princip inte att behöva använda dig av comment tiers när du arbetar med dialektinspelningarna i SweDiaSyn. 6
4 Övning i att transkribera Här följer en steg för steg-guide till hur du kan göra en kort transkription i CHAT, och sedan hur du länkar transkriptionen till ljudfilen. Guiden är anpassad för pc (men kan ganska lätt anpassas till Mac-användare; den största skillnaden är att man öppnar programmet på ett annat sätt). 4.1 Steg för steg-guide 1. Öppna CLAN genom att gå till Startmenyn och välj Alla program. Välj sedan programmet CLAN. 2. Programmet öppnas, och två fönster syns. Dels ett mindre, s k Commandsfönstret (eller Kommandorutan, dels ett större fönster, det s k outputfönstret 5. 3. Om det inte öppnas ett tomt output-fönster, kan du gå upp under Filemenyn och välja New. 4. Klicka sedan i outputfönstret, och börja skriv. 5. Fyll först i de obligatoriska raderna som ska vara med i headern (se ovan). Tänk på att börja med @UTF8. 6. När du är klar med Headern kan du ta ett par mellanslag, och sedan skriva raden: @End Mellan Headern och @End ska du skriva in själva transkriptionen. Tänk på att det sedan inte ska finnas några blankrader kvar, så ta bort dessa innan du kontrollerar (genom att använda CHECK, se nedan). 7. Spara nu din fil innan du fortsätter. Gå upp under File-menyn och välj Save as.... Ge sedan filen ett namn (se häftet Transkription och direktglossning av dialektinspelningar i SweDiaSyn ). 8. När man arbetar med att transkribera och länka ljudfiler i CHAT använder man sig av det s k Sonic Mode. 9. Gå till menyn Mode och välj alternativet Sonic mode. 10. Leta dig fram till den ljudfil som du ska transkribera, markera filen, och klicka OK. 5 Om Kommandorutan inte öppnas kan man öppna gå in under menyn Windows överst på skärmen, och välja Commands, eller trycka ner tangentkombinationen Ctrl+D. Du behöver bara Kommandorutan om du ska köra analysprogram, och det ska vi inte göra nu. 7
11. OBS! Det kan vara ett bra trick att alltid spara transkriptionsfilen i samma mapp som ljudfilerna. Du kan innan du börjar transkribera lägga varje ljudfil i en egen mapp, och sedan se till att spara transkriptionsfilerna tillsammans med dessas. 12. När du valt ljudfilen kommer den upp som en vågform i nederkanten av skärmen. Om vågorna inte syns så tydligt kan du klicka på koderna +/-V och +/-H som syns till vänster och till höger om vågformsavsnittet. 13. Nu kan du markera ett stycke av vågformen med musen och sedan spela upp det genom att hålla nere SHIFT-tangenten på skrivbordet ( Stora bokstäver -tangenten), och samtidigt vänsterklicka med musen på det valda avsnittet. 14. När du lyssnat på det första avsnittet några gånger är det dags att börja skriva in talare. Du vet i allmänhet om du spelar in en yngre eller äldre person, om det är en man eller kvinna, och väljer talarkod efter det (YM2, OM1, beroende på filnamnet). Förutom denna person finns en eller två intervjuare med, som får koderna INT respektive INT2. 15. Inled varje talarrad med stjärna (*), trebokstavskod, kolon och tab, t ex: *INT: va kommer du ifrån? 16. Glöm inte bort att göra mellanslag och ange skiljetecken i slutet av raden. 17. När du prövat att transkribera några rader kan du ta hjälp av CLAN för att koppla kortkommandon till varje talarkod. 18. Gå upp till File-menyn och spara filen. 19. Gå sedan in under Tiers-menyn och välj alternativet Update. 20. Gå sedan åter in under Tiers och se resultatet. Nu ska det ha skapats ett kortkommando för varje talare, vilket gör att du inte behöver skriva ut talarens namn varje gång. I stället kan du trycka Ctrl+1, Ctrl+2 osv. Du kommer snabbt att komma in i detta när du börjar transkribera. 21. Du kan också nu börja länka transkriptionen till ljudfilen. Gör så här: 22. Sätt markören sist på en rad (efter skiljetecknet). 23. Markera sedan den bit ljud som hör till detta transkriptionsavsnitt. 24. Klicka på symbolen s som finns i början av vågformen. Detta gör att en bullet (punkt) sätts in. 25. Du kan låta ljudet överlappa om talarna t ex talar i munnen på varandra. 8
26. Du kan också välja att arbeta med kortkommandot Ctrl+I. När du transkriberat ett yttrande kan du placera kursorn sist på raden (efter skiljetecknet) och trycka Ctrl + I. Du får en bullet, och ljudet länkas till transkriptionen. 27. När du är färdig med en bit transkription kan du se om du har gjort några syntaktiska fel. Gå upp under Mode-menyn och välj alternativet Check opened file. 28. Programmet kollar om allting stämmer, och om du har tur får du meddelandet Success! No errors found. Om det inte går lika bra får du försöka lista ut vad som gått fel. Har du glömt att avsluta en rad med skiljetecken? Har du glömt tabb mellan talare och yttrandet? Har du använt några otillåtna tecken? Ändra det som gått fel och testa CHECK igen. 4.2 Andra sätt att jobba med Sonic Mode Du kan också använda Sonic Mode för att spela upp det länkade ljudet, och att förändra länkningen, om den har blivit fel på något sätt 6. Spela upp ljudet från vågformen: Markera en del av vågformen med musen (vänster musknapp) När du släpper vänstra musknappen spelas den markerade delen. Så länge avsnittet är markerat kan du spela det igen genom att trycka SHIFT och vänster musknapp samtidigt. Ändra ett markerat avsnitts längd: Du kan ändra längden på ett markerat avsnitt genom att trycka SHIFT och klicka med vänster musknapp på den punkt dit du vill förlänga/förkorta det markerade avsnittet. Ändra vågformen: vågformen. Använd knapparna +V/-V och +H/-H till vänster om +H/-H ökar (+) eller minskar (-) tiden i fönstret. +V/-V ökar (+) eller minskar (-) amplituden av vågformen. Scrolla: I nederkant finns en scroll list som gör det möjligt att flytta sig fram och tillbaka I ljudfilen. Om filen är lång kan scrollningen ta lång tid! Få tidsförloppsinformation: Ovanför vågformen finns information om tiden i ljudfilen. Det är den svarta linjen som börjar med CLAN. Om du klickar på linjen kommer du att se tre siffror, a, b och c: (a) Början och sluttiden för det aktuella fönstret i sekunder (W = Window) 6 Tack till Jonas Grandfeldt för denna uppställning! 9
(b) Markörens position i timmar: minuter: sekunder: millisekunder. (C =cursor) (c) Början och slutet på den aktuella markeringen i sekunder. Om du klickar på linjen en gång till får du fram samplingsfrekvensen för ljudfilen. 5 Dep-filen När CLAN installeras på din dator installeras samtidigt en s k dep-fil. Det är en fil varifrån CLAN hämtar information om t ex vilka headers och vilka kommentarrader som får lov att finnas i filen. Dep-filen har ett antal förinställningar, och om man håller sig till de förslag på header och dependent tiers som CLAN själv tillåter så behöver man (nästan) aldrig bry sig om dep-filen. Dep-filen används när man kontrollerar om transkriptionen stämmer, dvs använder Check. Om du behöver uppdatera dep-filen hittar du den i CHILDES-mappen. På PC 1. Gå till \C:(Den här datorn). (CLAN installeras är om du inte explicit har valt en annan plats.) 2. Öppna mappen CHILDES. 3. Öppna mappen CLAN. 4. Öppna mappen lib (library). 5. Här ska dep-filen ligga. depfile.cut 6. Du kan dubbelklicka på den, och öppna den med hjälp av CLAN, eller med hjälp av vilket texteditorprogram som helst. 7. Här kan du fylla i alternativa headers eller comment tiers om du har infört sådana i dina transkriptioner. 8. Spara sedan depfilen, och se till att den fortfarande har filextensionen.cut. På Mac (OSX) 1. Gå till programmappen. (CLAN installeras är om du inte explicit har valt en annan plats.) 2. Öppna mappen CLANX. 3. Öppna mappen lib (library). 4. Här ska dep-filen ligga. Den heter depfile.cut 10
5. Du kan dubbelklicka på den, och öppna den med hjälp av CLAN, eller med hjälp av vilket texteditorprogram som helst. 6. Här kan du fylla i alternativa headers eller comment tiers om du har infört sådana i dina transkriptioner. 7. Spara sedan depfilen, och se till att den fortfarande har filextensionen.cut. 6 Transkriptionsknep Du kan välja att transkribera i CLAN direkt; detta har vissa fördelar. Men det kan ibland också vara bra att använda ett mer avancerat ordbehandlingsprogram, t ex Word. I Word har du nämligen möjlighet att utnyttja autokorrigeringen för att få väldigt mycket text utifrån några få knapptryckningar. Om du gör en ljudnära överföring kan du t ex välja att byta ut alla vanliga ord med sje-ljud till att alltid stavas med sj, eller att mig, dig automatiskt ändras till mej och dej. När du arbetar med en CHAT-transkription i Word måste du emellertid komma ihåg att gå upp under Arkiv-menyn och välja alternativet Spara som... Se sedan till att du sparar som Endast text-format, och att filen får filextensionen.cha (och alltså inte.doc som filen får om man sparar den utan att specificera sparform i Word, eller.txt som filen får om man sparar den som endast text). Du kan förstås variera dig mellan att ibland transkribera i Word, ibland i CLAN, beroende på vad som passar dina syften bäst. 11