01-05-04 1 DATABEARBETNING I SWEDIA 2000: SEGMENTERING, TRANSKRIPTION OCH TAGGNING (VERSION 2.2) A. SEGMENTERING... 1 Vad är ett segment?... 1 Prioriteringar... 3 Segmenteringsunderlag... 3 Segmenteringskriterier... 4 (i) CV-sekvenser tonlösa klusiler... 4 (ii) CV-sekvenser tonande klusiler... 7 (iii) CV-sekvenser nasaler... 9 (iv) VC-sekvenser tonlösa klusiler... 10 (v) VC-sekvenser tonande klusiler... 12 (vi) Finala vokaler... 13 (vii) Finala klusiler... 14 (viii) Tonlösa frikativor i CV- och VC-sekvenser... 14 (ix) Tonande frikativor/approximanter i CV- och VC-sekvenser... 15 (x) Affrikator... 16 (xi) Lateraler... 17 (xii) Flappar... 18 (xiii) /h/... 19 B. TRANSKRIPTION... 20 Transkription auditivt eller visuellt... 20 Detaljnivå. Samstämmighet mellan transkribenter... 20 Val av teckenuppsättning... 22 (i) Vokaler... 23 (ii) Diftonger... 25 (iii) Konsonanter... 26 C. TAGGNING... 28 D. PROSODI... 30 Ordaccent och intonation... 30 Kvantitet... 32 A. SEGMENTERING Det digitaliserade dialektmaterialet segmenteras, transkriberas 1 och taggas i ESPS/Waves. Följande rader är avsedda som vägledning i detta arbete. Vad är ett segment? Kvantitativ fonetisk analys av en dialekt förutsätter att talproverna kan delas upp i väldefinierade bitar. Detta är självklart när det gäller durationsmätningar, men avgränsningar måste göras även i andra sammanhang. Om vi t.ex. ska mäta upp formantfrekvenserna i någon 1 Den IPA-font som används i denna manual är SIL Doulos IPA93. Den kan hämtas från http://www.sil.org/computing/fonts/encore-ipa.html.
01-05-04 2 dialekts vokaler gäller det att finna ett kriterium för val av mätpunkt. Ett möjligt val är vokalens mitt, vilket förutsätter att vi har identifierat dess början och slut. Ett annat val kan vara baserat på någon vändpunkt, t.ex. F2 s maxvärde. Denna hittar man i och för sig utan referens till en exakt avgränsning. Ofta vill man dock precisera var i vokalen som en kritisk punkt infaller, t.ex. i samband med diftongering ett möjligt kriterium för typologisk dialektindelning. Detta måste då uttryckas i relation till vokalens början eller slut. I akustisk-fonetiska sammanhang brukar utsnitt ur talvågen kallas segment. Notera att terminologin då avviker från den i fonologisk litteratur vanliga, där segment vanligtvis betecknar vokaler och konsonanter till skillnad från stavelser, ord, accenter etc. Segmentering av talvågen bör alltid göras med hänsyn till givna frågeställningar. Det är alltså inte givet på förhand var ett segment ska börja och sluta. Ett par exempel: (1) Någon uppställer hypotesen att enstaviga ord med cirkumflexaccent har längre duration än motsvarande ord utan cirkumflexaccent, eller att en apokoperad ändelse kompensatoriskt förlänger ordstammen. I dessa fall är hela ordet ett relevant segment som måste avgränsas enligt något visst, konsekvent tillämpat kriterium. (2) En annan hypotes kunde vara att svenskans dialekter kännetecknas av olika grad av preaspiration och att detta kan uttryckas i termer av durationen hos ett aspirativt brusintervall före klusilens ocklusionsfas. Ett test av hypotesen skulle gå ut på att avgränsa och mäta detta intervall, som då är ett relevant segment. I det första fallet avgränsar vi alltså ett segment som är större än en vokal eller konsonant, och i det andra fallet ett segment som är mindre än dessa enheter. Det ligger i sakens natur att det inte går att överblicka alla tänkbara frågor som kan komma att ställas till en stor dialektdatabas. Men det borde vara realistiskt att sikta mot följande båda mål för segmenteringsarbetet: 1) att strukturera databasen genom segmentering på ordnivå så att användaren lätt ska hitta fram till det material som krävs för den givna forskningsuppgiften; 2) att komplettera ordsegmenteringen på en nivå som tillmötesgår de forskningsmål som prioriteras i projektet.
01-05-04 3 Utöver denna bassegmentering kommer varje enskild frågeställning att kräva sina egna kompletteringar i form av riktad segmentering och annan databehandling. Prioriteringar Ordmaterialet (ordlistorna) segmenteras först. Ordlistorna är konstruerade med tanke på de fonetiska prioriteringar som gjorts inom projektet, d.v.s. fonetiska och fonologiska analyser av a) vokal- och konsonantinventarier, b) kvantitetskontraster och c) intonation och ordaccent. Varje enskilt yttrande eliciteras för att illustrera någon av dessa aspekter. Vi vill ta fasta på detta och så snabbt som möjligt göra databasen användbar för forskningsändamål. Det är därför befogat att först enbart avgränsa de i sammanhanget relevanta segmenten. Hit hör dels hela orden som enheter, dels aspekter av konsonanterna och vokalerna. Om t.ex. ordet blått finns med för att illustrera olika dialekters motsvarigheter till standardsvenskans korta bakre rundade vokal segmenterar man ut denna vokal och ingenting annat; i ord som valts för att dokumentera initala konsonanter segmenteras bara dessa (de kan däremot behöva delas upp i flera akustiska segment, se nedan); och för kvantitet som vi i regel vill kunna uttrycka som en relation mellan vokal- och konsonantduration behöver vi följaktligen ett segment motsvarande vokalen och ett motsvarande konsonanten. Vilka speciella segmenteringar som krävs för accent- och intonationsanalys beror likaledes på vad som skall kvantifieras och på tillvägagångssättet i analysen. Segmenteringsunderlag Segmentering av tal är lättast om man har tillgång till både ljud och bild. Vilken visuell representation ska man använda för att resultatet ska bli så tillförlitligt som möjligt? Svaret beror på uppgiften, men erfarenheten talar för att man för det mesta bör ha tillgång till åtminstone bredbandigt spektrogram, helst kompletterat med den råa vågformen. (I segmentering för intonationsanalys kan man givetvis behöva ta hänsyn till både spektrogram/vågform och F0-kurva.) Av dessa båda har det informationsrikare spektrogrammet normalt företräde; ensam ger talvågen som regel ett otillräckligt segmenteringsunderlag. I den följande genomgången ska vi främst identifiera spektrografiska landmärken för vokaler och konsonanter. För god tids- och frekvensupplösning är det lämpligt att spektrogrammets storlek och proportioner liknar gamla spektrografers hårdkopior. Vid segmenteringsarbetet bör vågform och spektrogram vara upplinjerade och synkroniserade.
01-05-04 4 Segmenteringskriterier I det här avsnittet föreslår vi några konventioner för avgränsning i sådana akustiska segment som är intressanta i relation till projektets primära målsättningar. I praktiken stöter man förstås på en del oförutsedda problem. Men genom att noggrant dokumentera problemen alltefter som de dyker upp kan vi successivt komplettera och förfina våra kriterier. Vilket slags segmentgränser har vi att ta ställning till? En uppgift är att segmentera ut hela ord för sökning i databasen (jfr avsnittet om taggning nedan). Det är en förhållandevis rättfram uppgift, i synnerhet om ordet i fråga har uttalats i isolering. Man segmenterar på basis av första och sista urskiljbara akustiska händelse som rimligtvis kan hänföras till ordet. När ord förekommer i fraser blir det genast lite svårare, liksom när det gäller att avgränsa segment inuti ord. Som regel blir det då aktuellt att finna konsekvent tillämpbara kriterier för olika C och V i CV- och VCsekvenser. Problemen med detta kan vara olika svåra. Exempelvis är CV med C=tonande klusil som regel lättare än VC med C=nasal. Vi går igenom de olika fallen i tur och ordning. 2 I vissa fall kan speciella kommentarer behöva göras; se avsnittet om taggning nedan. (i) CV-sekvenser tonlösa klusiler Det spektrografiska händelseförloppet vid övergång från tonlös klusil till vokal kan te sig ganska olika, bl.a. beroende på klusilens artikulationsställe. I initial position i primärbetonade stavelser kan man allmänt räkna med det händelseförlopp som beskrivs i (a)-(d) nedan 3 ; se spgr. 1 som avbildar ordet kaka (referensmaterialet). Eftersom förloppet är så snabbt och effekterna överlappar kan de vara svåra att segmentera sinsemellan; detta är heller ingen primär målsättning. a) Först uppträder en mycket kort (i allmänhet 10 ms eller mindre) men energirik spik som sträcker sig över en stor del av frekvensområdet. 2 De spektrografiska illustrationer som förekommer i detta avsnitt är dels gjorda på autentiskt dialektmaterial, dels på ett mellansvenskt riksspråkligt material inspelat med ett par manliga talare, en äldre och en yngre, i ekofritt rum (fonetiklabbet, SU, oktober 1999). Detta senare material kallas nedan referensmaterialet. På samma sätt har referensmaterialet till dags dato spelats in med en äldre och en yngre kvinnlig talare. 3 Se även kapitlet Stops in CV syllables i Gunnar Fants bok Speech sounds and features, Cambridge, MA: The MIT Press, 1973.
01-05-04 5 Denna s.k. transient beror på ett slags chockvåg som uppstår då klusilens tillslutning snabbt öppnas. b) Därpå följer ett relativt kort, mer eller mindre kraftigt frikativt brus. Friktionen är en konsekvens av det tryckfall som uppstår vid artikulationsstället så länge dess tvärsnittsyta är tillräckligt trång. Friktionsbrusets intensitet och duration tenderar att avta i ordningen velar/palatal, dental/alveolar, labial. 8000 7000 6000 5000 4000 3000 2000 1000 0 196.2 196.3 196.4 196.5 196.6 196.7 196.8 196.9 197 197.1 197.2 197.3 197.4 Spgr. 1. Ordet kaka från referensmaterialet, talare UM. Övertydligt uttal med långt och kraftigt aspirationsbrus i det initiala k-ljudet. Segmentgränser är inlagda enligt kriterier beskrivna i texten. Lägg märke till att det andra k-ljudet är oaspirerat. c) I de flesta svenska dialekter finns också ett h-liknande aspirationsintervall, särskilt då den tonlösa klusilen inleder en betonad stavelse. Aspirationen är normalt flera gånger längre än det föregående friktionsintervallet, 30-60 ms representerar en ganska normal variationsbredd i mellansvenskt riksspråksuttal. I spgr. 1, som representerar ett närmast övertydligt uttal, är intervallet relativt långt, ca. 80 ms, och bruset är kraftigt markerat. I aspirationsbruset ser man ofta formanter som böjer av mot och kontinuerligt leder fram till vokalformanterna. Aspirationsformanterna avspeglar alltså formförändringen i ansatsröret då detta går mot följande vokal. d) Den huvudsakligen tonlösa aspirationen övergår, ofta tämligen abrupt, i stavelsens tonande fas, d.v.s. vokalsegmentet. Formanterna framträder skarpt från en röstpuls till nästa, men tidsinsättningen kan skilja sig något mellan de olika formanterna.
01-05-04 6 Var i det komplexa CV-förloppet drar vi nu för våra syften lämpliga segmentgränser? Rekommendationer (se spgr 1): Segmentgräns markeras: vid första tecken på akustisk energi som beror på klusilexplosionen. Detta kan vara en synlig transient eller det frikativa brusets ansats (det beror som sagt en del på artikulationsställe). vid första röstpuls som markerar det abrupta formantpåslag som följer på aspirationsintervallet, oavsett vilken formant som slår på först. Den första segmenteringspunkten är väl tämligen självklar. Den kommer också att markera början på ordet. Den andra punkten kan man diskutera. Borde man t.ex. skilja ut friktion och aspiration som två separata segment? Aspirationen ska kanske betraktas som en tonlös del av vokalen eftersom den innehåller vokalformanter? Skälet till att välja de ovan föreslagna kriterierna är att de ligger till grund för analys av voice onset time (VOT), ett effektivt korrelat till kontrasten tonande/tonlös i klusiler i många språk. VOT definieras som tidsintervallet mellan de ovan angivna mätpunkterna: klusilens explosion och vokalens röstpåslag. 4 Informell avlyssning antyder att VOT kan variera mellan dialekter 5. Det är således ett intressant mått i sammanhanget. Explosionsförloppet kan som sagt se lite olika ut beroende på klusilens artikulationsställe. Det är t.ex. inte helt ovanligt att /k/ uppvisar två konsekutiva friktionsspikar. Om dessa ligger så nära varandra att man kan utesluta att den första beror på någon artefakt (d.v.s. något ovidkommande ljud) gör man segmenteringen vid den första spiken. I /p/ ser man ibland ingen explosion på spektrogrammet. Man kan då pröva med att sänka den dynamiska tröskeln eller blåsa upp amplituden i vågformen. Om varken transient, friktionsbrus eller aspiration framträder får man lämna samplet därhän. Explosionsintensiteten i /t/ kan bero på om artikulationsstället är dentalt eller alveolart en annan, troligen systematisk dialektindikator. Dentaler 4 Se L. Lisker & A.S. Abramson (1964). A cross-language study of voicing in initial stops: acoustical measurements. Word 20, 384-422. 5 Medan transient och friktion till stor del bestäms av talapparatens aerodynamik står VOT under mera aktiv kontroll. Produktionskorrelatet är ju klusilexplosionens och stämbandssvängningarnas relativa tidsinsättning.
01-05-04 7 tenderar att ha mindre intensitet än alveolarer och det kan också finnas skillnader i brusspektrets sammansättning. Det är också sannolikt att VOT påverkas längre vid alveolart än dentalt artikulationsställe. Ytterligare en skillnad mellan de olika artikulationsställena är självfallet att explosionsbruset (liksom föregående vokals F2) återfinns på olika frekvenser för de olika artikulationsställena: relativt lågt i /p/ och i /k/ före bakre konsonant, och relativt högt i /t/ och i /k/ före främre konsonant. Frågan Var börjar en klusil? får ett annat svar då klusilen uppträder inne i ett ord. Detta är fallet i de ord som ska illustrera hur kvantitet uttrycks fonetiskt i de olika dialekterna. I dessa fall mäts klusilduration från gränsen mellan V och C. Kriterier för denna gränsdragning diskuteras i kvantitetsavsnittet nedan. (ii) CV-sekvenser tonande klusiler Tonande klusiler i CV-position har som regel en mindre komplex akustisk sammansättning än de tonlösa klusilerna. För det första saknas aspirationen helt, och för det andra är friktionsbruset vid explosionen relativt svagt. Båda dessa effekter har samma orsak, nämligen att explosionen i /b d g/ sker med obetydlig glottisöppning och därmed svagt luftflöde. En annan skillnad mellan tonlösa och tonande klusiler är att de senare ofta uppvisar röstpulser före explosionen (förtoning, eng. prevoicing). Dessa syns normalt i vågform och på bredbandigt spektrogram. Pulsernas amplitud tenderar att avta under loppet av klusilens ocklusionsintervall och försvinner ibland helt. Detta beror på den snabba utjämning av sub- och supraglottalt tryck som äger rum då luft strömmar upp i den stängda svalg-munkaviteten. Transienten (kavitetens momentana respons på att artikulationsstället slår upp) kan ofta ses som en spik över ett brett frekvensområde. Den kan vara överlagrad på (men inte nödvändigt synkroniserad med) ett kontinuerligt flöde av röstpulser. Ett exempel på initial tonande klusil kan ses i spgr. 2 som avbildar ordet dalar från referensmaterialet. Förtoningsintervallet har en duration om ca. 100 ms. Även i de tonande klusilerna ser man skillnader i explosionsintensitet mellan olika artikulationsställen. I /b/ är den frikativa komponenten som regel osynlig, medan /g/ ofta uppvisar ett markant friktionssegment. I likhet med de tonlösa klusilerna finner man efter de tonande ofta en långsam formantböjning som kan gå mot följande vokals målvärde (särskilt i långa vokaler) eller genast dra iväg mot nästa konsonants lokus. Härtill kommer ev. diftongering. Formantböjningarna tenderar
01-05-04 8 att synas tydligare efter tonande än efter tonlösa klusiler eftersom de inte skyms bakom aspirationsbrus. 8000 7000 6000 5000 4000 3000 2000 1000 0 313 313.1 313.2 313.3 313.4 313.5 313.6 313.7 313.8 313.9 314 314.1 314.2 Spgr. 2. Ordet dalar med svag förtoning före klusilexplosionen. Från referensmaterialet, talare UM. Segmentering enligt beskrivna kriterier. Segmentgränser kan lämpligen sättas ut på följande sätt: Vid första röstpuls som kan hänföras till förtoningen, om en sådan är urskiljbar. Vid första tecken på akustisk energi som beror på klusilexplosionen. Kriterierna motiveras återigen av VOT. Som nämnts erbjuder VOT ett enkelt mått på tonande/tonlös-kontrasten. Skillnaden mellan tonlösa och tonande klusiler kan vara en skillnad mellan positiv och negativ VOT. När röstpåslaget inträffar efter klusilexplosionen har VOT ett positivt värde (eng. voicing lag ); och när röstpåslaget inträffar före klusilexplosionen är VOT följaktligen negativ (eng. voicing lead ); VOT=0 betyder att de båda händelserna inträffar samtidigt. Det är möjligt att svenskans dialekter, liksom jordens språk, fördelar sig olika längs denna dimension. Speciellt är det möjligt att en del dialekter saknar tonande/tonlös-kontrasten i klusiler. Detta skulle kunna avläsas som avsaknad av VOT-skillnad mellan /p t k/ och /b d g/. Det senare av de ovan föreslagna segmenteringskriterierna kan vara en synlig transient, i vissa fall början av ett frikativt brus, eller det abrupta formantpåslag som markerar den följande vokalen. Detta beror som sagt mycket på artikulationsstället, i detta fall om klusilen är /b/, /d/ eller /g/. Eftersom transienten är momentan och friktionsbruset i tonande klusiler mycket kort (och ofta så svagt att det inte syns på spektrogrammet) är
01-05-04 9 tidskillnaden mellan dessa och vokalens röstpåslag försumbar (som regel 10 ms eller mindre). Det gör därför ingen väsentlig skillnad i vilken av dessa punkter segmenteringen företas. Man kan alltså konsekvent hållas sig till den punkt där abrupt energi först uppträder på spektrogrammet. Det händer att initiala tonande klusiler har ett mer eller mindre tydligt vokalförslag eller att den vanliga förtoningen ersätts eller kompletteras med nasalitet. Dessa effekters styrka kan variera kontinuerligt och det kan vara besvärligt att avgöra precis vad som händer. I vilket fall som helst är sådant vokalförslag eller sådan nasalitet normalt en direkt konsekvens av realiseringen av den tonande konsonanten. Rekommendationen blir då: Vokalförslag eller nasalitet före tonande klusil hänförs vid segmenteringen till klusilen. Närhelst en sådan speciell effekt observeras bör den anges i en kommentarrad med beteckningen vokalförslag, prenasalitet e.d. (se om taggning nedan). Ibland förekommer ord som börjar på tonande eller tonlös initial klusil i sammanhängande fraser. Detta bör då kommenteras särskilt. I sådana fall behöver vi inte anstränga oss att identifiera början av ocklusionsintervallet. Även om detta ibland kan vara tämligen lätt är det inte av primärt intresse, och dessutom kan en del av det synliga tysta intervallet bero på att talaren gör en paus mellan orden. Detta kan inte alltid säkert avgöras. Analys av kvantitetskontraster i VC-sekvenser inne i ord kräver som nämnts däremot durationsmätningar av tysta klusilintervall. (iii) CV-sekvenser nasaler Initiala nasaler är som regel lättsegmenterade. De uppvisar kraftiga, relativt konstanta röstpulser och övergången till följande vokal är abrupt men brusfri; se spgr 9 nedan. Segmentgränser sätts: vid första röstpuls i detta konstanta mönster. vid den abrupta övergången till fullt vokalspektrum.
01-05-04 10 (iv) VC-sekvenser tonlösa klusiler Segmentering i VC-sekvenser är i första hand aktuell i kvantitetsmaterialet. Övergång vokal-tonlös klusil innebär i princip att a) stämbandstonen upphör och b) klusilen initieras genom labialt, dentalt, velart eller annat blockage i ansatsröret. Stämbandstonen kan stängas av på olika sätt, t.ex. 1) genom att glottis knips ihop; 2) genom att stämbanden stannar i fonationsläge men slutar vibrera p.g.a. av att tryckutjämningen mellan sub- och supraglottala kaviteter inte kompenseras genom aktiv kavitetsutvidning; i princip kan passiv utvidning också motverkas genom att kavitetsväggarna hindras från att ge efter för det växande lufttrycket, varvid stämbandsvibrationerna upphör efter några få millisekunder; eller 3) genom att stämbanden dras isär. Alla tre manövrerna resulterar i ett relativt abrupt intensitetsfall i vokalformanterna. Metod 1 kan dock ge upphov till knarr eller något som liknar glottal klusil, och metod 3 kan resultera i preaspiration. Hopknipningsmetoden förekommer i flera språk och leder ofta till att den följande klusilexplosionen inte hörs p.g.a. frånvaro av luftflöde ( oexploderade klusiler, i IPA-notation betecknade med [^] efter klusilsymbolen, t.ex. /V^/). Det torde vara obekant i vilken mån denna avtoningsgest begagnas i någon svensk dialekt, men möjligheten kan inte uteslutas (gnällbältet?). Den passiva metoden är möjligen vanlig i språk som helt saknar preaspiration, men skulle kunna förekomma som korrelat till tonande klusiler i svenska dialekter (t.ex. i gräsömålet där tonlös/tonande i intervokaliska klusiler motsvaras av +/-preaspiration, medan klusilintervallet är tonlöst i båda fallen). Den tredje metoden glottal abduktion före supraglottalt luftblockage kan antas vara den vanligaste i de svenska dialekterna. Ett skäl till detta antagande är att denna artikulatoriska manöver tenderar att leda till ett mått av preaspiration, ett utbrett fonetiskt kännetecken för nordvästra Europa. Preaspirationsintervallet är ibland fyllt med synligt aspirationsbrus. Men preaspiration har ofta svagare intensitet än postaspiration och framträder inte alltid klart. Ett annat kännetecken kan vara en spik i spektrogrammet som ofta uppstår i det ögonblick då ansatsröret slår ihop vid klusilens artikulationsställe, d.v.s. vid början av dess ocklusionsintervall. I spgr. 3 avbildas ordet lott med synlig, ca. 50 ms lång preaspiration före den tonlösa klusilens ocklusionsintervall; jfr också kaka i spgr. 1. Både spektrogram 1 och 3 visar talprover inspelade i ekofritt rum. de är m.a.o.
01-05-04 11 fria från rumseko. Observera att viss efterringning av formanter i ett följande tyst intervall eller preaspirationsintervall ändå kan förekomma (minimalt i föreliggande spektrogram). Detta beror troligen på att strålning kan tränga igenom vävnaderna. Effekter av rumseko och åtgärder för att komma till rätta med detta problem diskuteras nedan. En utförligare diskussion planeras till nästa version av manualen. 8000 7000 6000 5000 4000 3000 2000 1000 0 364.2 364.3 364.4 364.5 364.6 364.7 364.8 364.9 365 365.1 365.2 365.3 365.4 Spgr. 3. Ordet lott från referensmaterialet med preaspiration utsegmenterad. Talare OE. Grad av preaspiration kan kvantifieras som: tidsavståndet mellan vokalformanternas abrupta intensitetsfall och den punkt där aspirationsbruset försvinner, alternativt vid den spik i spektrogrammet som markerar ocklusionsintervallets början. Detta mått på preaspiration kan (i analogi med VOT) kallas voice offset time. Eftersom preaspiration kan utgöra ett dialektskiljande drag bör den uppmärksammas i segmenteringen. (Vid analys av kvantitetsrelationer på basis av VC-domänen får man sedan bestämma sig för om man vill föra preaspirationen till vokalen eller konsonanten.) Vid segmentering av preaspiration och i andra sammanhang gäller det att vara uppmärksam på ev. artefakter som kan ge upphov till missledande mönster i spektrogrammet. I vissa inspelningar från 1998 har vi noterat ett slags eko i talsignalen, som isolerat låter som en efterklang av vokalen. Det kommer troligen från rumsakustiken eftersom det tydligt skiljer sig från en plats till en annan; detta har testats av Pär Wretling. Vid ett ytligt betraktande kan denna efterklang se ut som en
01-05-04 12 presapirationseffekt eller en fortsättning av vokalen. I sådana fall kan analys av preaspiration eller vokalduration bli mer än lovligt chansartad. Vid angivande av kvantitetskontrastens durationskorrelat är man ofta intresserad av relationen mellan vokal- och klusilduration i VCsekvenser. Hur segmenterar vi på tillförlitligaste sätt ut klusilen? Här tycks det finnas flera rimliga alternativ. Vi har redan rekommenderat en uppdelning i preaspiration och ocklusion. Vi måste också ta ställning till om klusilens högra gräns ska innefatta eller utesluta själva explosionen (transient, friktion etc.). Här spelar det en viss roll att det kan bli aktuellt att studera kvantitet i både en- och tvåstavingar. I tvåstaviga, icke-sammansatta ord är andra stavelsen obetonad och oaspirerad, och även explosionens friktionskorrelat har normalt mycket kort duration. Det är därför inte så väsentligt om man låter explosionen ingå i klusildurationen eller om man lämnar den utanför. Jämför enstavingar där kommer klusilen att uppträda i final position och typiskt få längre friktion och aspiration; jfr t.ex. ordet lott i spgr. 3 ovan. P.g.a. den finala positionen är tidskontrollen av dessa element mindre strikt och de får erfarenhetsmässigt en mera variabel duration än själva ocklusionsintervallet. Denna större spridning i data kommer att försvåra statistiska slutsatser rörande kvantitetskontraster ett särskilt relevant övervägande här eftersom vi laborerar med extremt små sampel. Detta leder till följande slutsats: En avgränsning före explosionen kan rekommenderas eftersom den a) kan antas leda till stabilare mätdata och b) kan tillämpas lika i både det enstaviga och det tvåstaviga fallet. (v) VC-sekvenser tonande klusiler Sekvenser vokal tonande klusil är i allmänhet relativt lättsegmenterade. Kriteriet är ett abrupt fall i formanterna intensitet, särskilt i F2 och högre formanter. Någon preaspiration förekommer inte. Röstpulserna fortsätter ofta under klusilens ocklusionsintervall men avtar i regel snabbt och kan försvinna helt (jfr spgr. 4 som avbildar ordet ludd). Segmenteringspunkt alltså: vid vokalformanternas abrupta intensitetsfall.
01-05-04 13 När det gäller avgränsning av klusilen i samband med kvantitetsanalys bör samma kriterium tillämpas för tonande som för tonlös klusil (se ovan). Rekommendationen blir därför: Avgränsning görs precis före explosionen vare sig det gäller enstaviga eller tvåstaviga ord. 8000 7000 6000 5000 4000 3000 2000 1000 0 125 125.1 125.2 125.3 125.4 125.5 125.6 125.7 125.8 125.9 126 126.1 126.2 126.3 Spgr. 4. Ordet ludd från referensmaterialet, segmentering för kvantitetsanalys (durationsmätning av vokal och följande klusil) och vid ordslut (se nedan). Talare UM. (vi) Finala vokaler I svenska och många andra språk har finala vokaler ofta två relativt lätt urskiljbara faser: en tonande och en tonlös. Den tonlösa är aspirationsliknande och formantstrukturen kan fortsätta kontinuerligt en bit in i denna fas (se spgr. 7 av ordet jaga nedan). Finns det någon anledning att i segmenteringen skilja ut dessa båda intervall? Ja, troligen informella observationer antyder att slutaspirationens längd och intensitet kan vara dialektskiljande. Men detta hör inte till de prioriterade frågeställningarna i projektet, och utsegmentering av finala aspirationsintervall får göras av den användare som väljer att specialstudera någon hithörande frågeställning. Här gäller det bara att avgränsa ord som slutar på vokal. Det är då naturligt att inkludera alla urskiljbara akustiska effekter. M.a.o.: Ord avgränsas så långt till höger som det går att urskilja akustisk energi som betingas av ordet.
01-05-04 14 (vii) Finala klusiler Den allmänna rekommendationen i (v) bör gälla även här. För finala klusiler innebär detta att explosionsfas inklusive eventuell final aspiration inkluderas i ordet (se återigen spektrogram av ludd, spgr. 4 ovan). Finala klusiler avgränsas alltså på ett sätt på ordnivå och på ett annat sätt då det t.ex. gäller att analysera kvantitet. (viii) Tonlösa frikativor i CV- och VC-sekvenser Att avgränsa tonlösa frikativor från vokaler innebär som regel ingen betydande svårighet, speciellt inte vad gäller sibilanter och andra frikativor med hög brusintensitet. Överlappningen är ofta obetydlig både i CV- och VC-sekvenser. Spgr. 5, prästen, illustrerar en övergång mellan vokal och /U/. Huvudregel: Gränsen mellan vokal och tonlös frikativa sätts så att den ena sidan om segmentmarkeringen domineras av frikativt brus och den andra domineras av vokalformanter. 8000 7000 6000 5000 4000 3000 2000 1000 0 13.1 13.2 13.3 13.4 13.5 13.6 13.7 13.8 13.9 14 14.1 14.2 14.3 Spgr. 5. Ordet prästen, manlig talare från Skillingmark. Gränsen mellan frikativa och vokal markerad. På spektrogram känns olika frikativor igen på brusenergins fördelning över frekvensdimensionen. Speciellt kan vi se att vissa frikativor (t.ex. [H] och [6], har en ganska diffust utspridd energi, medan andra (t.ex. [U] och [Û]) företer energi koncentrerad till vissa frekvensband. Skillnaden har att göra med två omständigheter: 1) en i denna mening koncentrerad frikativa kan uppkomma bara om det finns en resonator av viss dimension framför bruskällan, och 2) källan måste själv vara tillräckligt
01-05-04 15 brusstark. Dessa villkor är uppfyllda i [U] och [Û], men inte i [H] och [6]. I de frikativor som har en mer eller mindre koncentrerad huvudenergi avtecknar sig de olika artikulationsställena i dennas placering i frekvensled. Tumregeln är att främre artikulationer betonar höga frekvenser, medan bakre artikulation betonar låga frekvenser. (ix) Tonande frikativor/approximanter i CV- och VC-sekvenser I mellansvenskt riksspråksuttal växlar många konsonanter mellan approximantiskt och frikativt uttal. Approximanter bildas med en förträngning i ansatsröret som inte är tillräckligt kraftig för att orsaka omslag från laminärt till turbulent flöde. I övergångar mellan approximant och vokal eller vice versa uppträder därför som regel mindre markanta diskontinuiteter än i övergångar mellan frikativa och vokal. Detta innebär ofta en svårighet i segmenteringen. Ett exempel visas i spgr. 6 av ordet slagit, som innehåller ett approximantiserat /I/ (närmaste IPA-tecken: [(]) uttalat på skillingmarkdialekt. Vi noterar i detta fall att det huvudsakligen är F1 och i viss mån F2 som företer en kontinuerlig fortsättning från V1 till V2. Man kan alltså få snegla på F3. Det syns då hur F3 snabbt förlorar i intensitet men dyker upp igen tämligen abrupt. Avlyssning kan ge ytterligare hjälp att pricka in denna senare diskontinuitet. 8000 7000 6000 5000 4000 3000 2000 1000 0 147 147.1 147.2 147.3 147.4 147.5 147.6 147.7 147.8 147.9 148 148.1 148.2 148.3 Spgr. 6. Ordet slagit med /I/ realiserat som approximant. Inte fullt tillförlitlig (reproducerbar) segmentering. Manlig skillingmarkstalare. I andra fall kan övergångarna vara än svårare att identifiera. Detta gäller ofta /L/, /Y/ och varianter av /T/. Ett fall illustreras i spgr. 7 som avbildar ordet jaga. Här finns inget klart synligt eller hörbart kriterium för
01-05-04 16 placering av segmentgränsen. Formanterna rör sig kontinuerligt in i vokalen. (Däremot är g-ljudet som synes en klar klusil till skillnad från föregående spektrogram.) I sådana fall gör man ofta bäst i att avstå från att insistera på att bestämma en exakt segmenteringspunkt. För att klart markera att detta inte är avsikten kan man (vid initial approximant) sätta den andra gränsen ett gott stycke in i följande vokal som illustreras i figuren. Detta förfarande bör då också kommenteras särskilt. Segmenterbara fall bör alltså kännetecknas av: en abrupt växling mellan fullt utvecklat vokalspektrum och ett intervall med svagare intensitet i främst F2 och högre formanter. 8000 7000 6000 5000 4000 3000 2000 1000 0 275.9 276 276.1 276.2 276.3 276.4 276.5 276.6 276.7 276.8 276.9 277 277.1 Spgr. 7. Ordet jaga från referensmaterialet. Observera att någon högra j- gräns inte kan identifieras tillförlitligt och att avgränsningen därför görs inne i följande vokalsegment. Talare UM. Låt oss i förbigående notera att [w] i vissa dialekter motsvarar standardsvenskt /v/, i andra standardsvenskt /r/. Variationvidden i just /r/ kan vidare illustreras av det rent frikativa uttal som ofta påträffas i tonlös konsonantkontext; en illustration kan ses i spgr. 5 ovan. I sådana fall görs segmentering efter de kriterier som gäller för tonlös frikativa. (x) Affrikator Affrikatorna är ett slags svansförsedda klusiler. Man kan säga att affrikatorna börjar som klusiler och slutar som frikativor. När det gäller segmentering av tonlösa och tonande affrikator kan man därför som regel rätta sig efter: motsvarande kriterier för klusiler och frikativor.
01-05-04 17 Ett exempel kan ses i spgr. 8, som visar ordet tjugo uttalat av en kvinnlig talare från Dalby (Värmland). 8000 7000 6000 5000 4000 3000 2000 1000 0 50.5 50.6 50.7 50.8 50.9 51 51.1 51.2 51.3 51.4 51.5 51.6 51.7 51.8 Spgr. 8. Ordet tjugo med initial affrikata. Kvinnlig talare från Dalby (Värmland). (xi) Lateraler Under kategorin lateraler sorterar vi som sig bör de flesta /N/-ljud. 6 Av nedan anförda skäl särbehandlar vi dock den kakuminala, tjocka varianten. Lateralerna uppträder i varierande skepnader i våra dialekter. De vanligaste torde vara de dentala och alveolara. I jordens språk förekommer också palatala och velara l-ljud; kommande analyser får utvisa i vilken mån även dessa varianter är företrädda i de svenska dialekterna. Lateralerna har som regel ett vokalliknande spektralt mönster med konsonantiska inslag (därav beteckningen +vokalisk, +konsonantisk hos Jakobson, Fant & Halle 7 ). De flesta l-ljud, inklusive de dentala och alveolara, karakteriseras av antiresonanser, som syns som frånvaro av akustisk energi i vissa områden (jfr spgr. 3 och 4 ovan). Mönstret är vanligtvis tämligen tydligt och företer diskontinuerlig övergång från och till omkringstående vokaler. Som regel kan ljudtypen därför segmenteras någorlunda tillförlitligt. Rekommendationen blir m.a.o.: 6 Även l-ljuden brukar räknas till kategorin approximanter. 7 Preliminaries to speech analysis, MIT Press 1951 (9:e uppl. 1969).
01-05-04 18 Lateraler segmenteras vid akustiska diskontinuiteter, särskilt i frekvensområdet F2-F4. (xii) Flappar Dessa ljud bildas som regel med en snabb, slagliknande, framåt-nedåtriktad tungrörelse som ofta startar bakom tandvallen, ibland med kraftigt tillbakaböjd tungspets till den grad att bildningen kan beskrivas som subapikal (d.v.s. med undersidan av tungbladet mot hårda gommen). 8 Ibland görs en åtskillnad mellan flappar och tappar. De förra tänks då vara muskeldrivna och de senare aerodynamiskt drivna. I praktiken är det dock ganska oklart hur denna distinktion ska tillämpas. Vi håller oss därför till termen flapp (eng. flap ). Ett klart och mycket utbrett exempel på denna kategori utgörs i de svenska dialekterna av det s.k. kakuminala l-ljudet. Emellertid är detta ljud inte alltid, om ens för det mesta, lateralt. Det kan inte heller konsekvent föras tillbaka på /N/; ofta uppkommer det ur /TF/-sekvenser. Det finns alltså både fonetiska och fonologiska skäl att markera de svenska dialektflapparna med en egen symbol. 8000 7000 6000 5000 4000 3000 2000 1000 0 113.6 113.7 113.8 113.9 114 114.1 114.2 114.3 114.4 114.5 114.6 114.7 114.8 114.9 Spgr. 9. Ordet mala med flapp. Observera den lättsegmenterade initiala nasalen och den något mindre entydiga flappen. Manlig talare från Skillingmark. Ett exempel på den svenska dialektflappen visas i spgr. 9, som representerar ordet mala uttalat på Skillingmark-dialekt. Som synes är segmentet mycket kort med abrupta intensitetseffekter både i början och 8 Denna exotism brukar exemplifieras med tamil och andra språk från den indiska subkontinenten.
01-05-04 19 slutet. Man kan se kraftiga negativa transitioner i F3 och F4 i den föregående vokalen. Segmenteringsregeln är relativt enkel: Flappar avgränsas på basis av abrupta diskontinuiteter i akustisk intensitet relativt omgivande vokaler. I praktiken kan man ändå tveka på någon röstpuls när. (xiii) /h/ Detta ljud är på många sätt en enstöring i konsonantsystemet; vi har f.n. inga indikationer på att /h/ skulle spela en dialektskiljande roll annat än genom sin från- eller närvaro men det kan inte heller utan vidare uteslutas. Det har inget unikt supraglottalt artikulationsställe utan anpassar sig i stor utsträckning efter omgivande vokalkontext. Ett fullt utvecklat h-ljud har dels ett aspirativt brus med synliga formanter som ansluter sig till omkringstående vokaler, dels en läckande röstklang som kontinuerligt övergår i vokalens modala fonationstyp. Spgr. 10 illustrerar ordet hage ur referensmaterialet. Uttalet är här något emfatiskt med kraftigt aspirationsbrus och i stort sett frånvaro av läckande röst. Om det aspirativa bruset inte syns eller hörs kan det vara ogörligt att segmentera /h/ på ett tillförlitligt sätt. För att då tydliggöra att detta inte är avsikten kan man för /h/ i initial position sätta höger segmentmarkering en god bit in i följande vokal (jfr om approximanter ovan). Detta bör då kommenteras särskilt. För det fall som illustrerar i spgr. 10 är segmenteringen dock enkel: /h/-ljudet avgränsas vid den abrupta övergången mellan de segment som kännetecknas av aspirationsbrus resp. periodicitet och klara vokalformanter.
01-05-04 20 8000 7000 6000 5000 4000 3000 2000 1000 0 257.9 258 258.1 258.2 258.3 258.4 258.5 258.6 258.7 258.8 258.9 259 259.1 Spgr. 10. Ordet hage från referensmaterialet, talare UM. B. TRANSKRIPTION Under denna rubrik anmäler sig flera problem. Ska transkriptionen göras på auditiv och/eller visuell grund? Hur detaljerat ska dialektmaterialet ordlistor, monologer och annat transkriberas? Hur kan man garantera en rimlig samstämmighet mellan transkribenter? Vilken teckenuppsättning ska väljas? Transkription auditivt eller visuellt En huvudpoäng med fonetisk transkription är som regel att grafiskt återge ett hörselintryck. Men i vilken mån bör man också utgå från spektrogram som stöd för transkriptionen? Visserligen kan spektrografisk representation bidra till att skärpa transkribentens auditiva perception. Men att låta spektrogrammet dominera över ljudintrycket kan ibland vara vilseledande. Exempel: Vi ser klara formantböjningar i en vokal och leds att klassa vokalen som diftong. Men dessa formantböjningar skulle kunna vara betingade av konsonantkontext. Vi får problemet att tolka den observerade dynamiken diftong, konsonantkontext eller lite av båda? Detta gör vi troligen bäst med örat. Rekommendation: det auditiva intrycket ges företräde i alla tveksamma fall. Detaljnivå. Samstämmighet mellan transkribenter I princip sätts detaljnivån i den fonetiska transkriptionen med hänsyn till transkriptionens syfte och ändamålsenlighet. Låt oss först överväga de
01-05-04 21 båda extrema varianterna fonematisk och finfonetisk transkription i relation till våra speciella förutsättningar. En fonematisk transkription förutsätter att var och en av våra dialekter har en känd fonemlösning; och jämförbarhetskravet innebär att alla dialekter ska ha fonemiserats på samma principer. Ingen av dessa förutsättningar är uppfyllda här. Tvärtom är det en av projektets långsiktigare målsättningar att på basis av relevanta data strukturera dialekternas ljudinventarier på ett fonologiskt motiverat och jämförbart sätt. Först när de nödvändiga analyserna är genomförda kan en fonematisk representation av materialet presenteras. Slutsats: på nuvarande stadium är en konsekvent fonematisk transkription inte möjlig. En finfonetisk transkription stöter på flera hinder: dels är den i sig själv tidsödande, och dels med tanke på att flera transkribenter jobbar i tre olika labb vore det närmast ogörligt att uppnå en godtagbar standardisering av den mängd fonetiska detaljer som skulle aktualiseras. Men det främsta argumentet mot en mycket detaljerad transkription är principiellt: projektets analytiska metodik är experimentell och kvantitativ, d.v.s. våra data ska vara algoritmiskt framtagna och oberoende replikerbara. Fonetisk variation mellan dialekter representeras därför i form av numeriska värden på stringent definierade parametrar (formantfrekvenser, durationer etc.), inte av direkt grafisk återgivning av hörselintryck. F.n. finns det därför ingen anledning att eftersträva en finfonetisk transkription av vårt dialektmaterial. Det återstående alternativet är en medelväg en tämligen grovfonetisk transkription. Syftet med den grovfonetiska transkriptionen är att sortera data på ett sätt som är så transkribentoberoende som möjligt och som kan bli till ledning för den vidare fonetiska och fonologiska bearbetningen av databasen. Transkriptionen ska m.a.o. kunna användas för att leta fram exempel på företeelser som ska analyseras. Anta t.ex. att uppgiften är att analysera och jämföra bakre sje-ljud i olika dialekter. Det kan då vara praktiskt att grovsortera främre och bakre sje-ljud med hjälp av två fonetiska symboler. Resten av arbetet får lämnas till den enskilde forskaren. Grovtranskriptionen kan alltså ses som en service och hjälp på traven till den prospektive databasanvändaren, men kan självfallet också användas till att upprätta preliminära dialekttypologier, ange geografisk utbredning av grova dialektdrag etc. 9 9 Det kan också noteras att en långt driven detaljnivå vid förberedande segmentering och transkription av en taldatabas inte nödvändigt höjer dess vetenskapliga effektivitet nämnvärt. Skälet är givetvis att det är omöjligt att förutse precis vilka frågor som i en framtid kan komma att ställas till databasen.
01-05-04 22 En grovfonetisk transkription reducerar men eliminerar inte risken för bristande överensstämmelse mellan transkribenter. Hur kan vi uppnå största möjliga mått av samstämmighet? Den metod vi här föreslår går ut på att välja en basuppsättning tillåtna fonetiska symboler. Dessa ska alltså så långt möjligt användas i alla sammanhang. På basis av primärmaterial, litteraturstudier och allmänfonetiska överväganden kan vi göra en någorlunda initierad gissning om hur denna teckenuppsättning bör se ut. Teckenuppsättningen kan komma att revideras. Sådana revisioner bör dock göras så sparsamt som möjligt. De bör vara övertygande motiverade och fylla klart definierade behov. Det är väsentligt att ev. revisioner tillämpas lika av alla. Vi väljer transkriptionssymboler med referens till nedan beskrivna artikulatoriska basdimensioner (som på många punkter överensstämmer med konventionell IPA-analys). Den fonetiska kvaliteten bakom vokalsymbolerna ska inom kort finnas tillgänglig i form av Damras knappar, en skärmbaserad knappsats med vars hjälp transkribenten när som helst kan uppdatera och kontrollera teckenanvändningen. Referensmaterialet kommer att bestå av vokaler i isolering, uttalade av en manlig och en kvinnlig central riksspråkstalare. Val av teckenuppsättning Den teckenuppsättning som rekommenderas av IPA, och som med tanke på sin gångbarhet i svensk och internationell fonetik vore det naturliga valet, kan t.v. inte användas i Xwaves. (Detta gäller i än högre grad landsmålsalfabetet.) Ett flertal datoranpassade fonetiska beteckningssystem har konstruerats för olika ändamål. Ett exempel är SAMPA (Speech Assessment Methods Phonetic Alphabet) som utvecklades 1987-89 i ESPRIT-projektet Speech Assessment Methods. SAMPA än än så länge begränsat till vissa europeiska språk, men ska på sikt gå att använda för transkription av godtyckliga språk. Ett annat alternativ är det system som används i Ian Maddiesons fonologiska/typologiska databas, UPSID 10, i vilken samtliga IPA s huvud- och hjälptecken är ASCII-kodade för att digitalt kunna ange ljudsystemen i jordens språk. Tills vidare skulle en liten del av UPSIDsystemet räcka för våra behov. På sikt skulle en klar fördel med systemet vara att det tillåter direkta jämförelser mellan UPSID-databasen och våra dialekter. En nackdel med UPSID-notationen är emellertid att den består 10 UCLA Phonological Segment Inventory Database; se I. Maddieson, Patterns of Sounds, Cambridge: CU Press.
01-05-04 23 av typografiskt krångliga teckenkoder som lovar att bli mer än lovligt besvärliga att handskas med i stor skala. För att underlätta det praktiska transkriptionsarbetet används därför så långt möjligt vissa av det latinska alfabetets små och stora bokstäver. I vissa fall får då två grundtecken användas för ett ljud (t.ex. n_g för IPA s [0]; utan mellanstreck motsvarar sekvensen en följd av två ljud, i detta fall [P] och [I]). Även siffror används i ett par fall p.g.a. viss grafisk likhet med motsvarande IPA-tecken. Diakritiska tecken undviks så långt möjligt; undantagen framgår nedan. Om så behövs för att undvika dubbeltydighet markeras morfemgräns med symbolen #. Transkriptionssymbolerna kan entydigt relateras till konventionella artikulatoriska dimensioner, och vid behov kommer transkriptionerna därför att kunna automatöversättas till IPA, SAMPA, UPSID eller landsmålsalfabetet (pågående projekt med Benny Brodda och Lars Törnqvist). Nedan följer förslag till indelning av de artikulatoriska basdimensionerna och motsvarande teckenkoder. (i) Vokaler För den främre vokalserien anges 5 höjdgrader: hög, halvhög, halvlåg, sänkt halvlåg och låg. För den centrala vokalserien anges 3 höjdgrader: hög/halvhög, halvlåg/sänkt halvlåg och låg. För den bakre vokalserien anges 4 höjdgrader: hög, halvhög, halvlåg/sänkt halvlåg och låg. Kommentarer: Kategorin sänkt halvlåg innefattar dels ä- och ö- varianter liknande dem före /T/ och supradentaler i central rikssvenska, dels det kanske ännu öppnare ö-ljud som återfinns i värmländska och andra dialekter. För den låga vokalserien (dvs. a-vokalerna) anges bara en främre och en bakre variant ungefär motsvarande främre rix: tack resp. bakre rix: tak. Om man kan höra ett mått av läpprundning bör man troligen välja den bakre varianten.
01-05-04 24 För icke-låga vokaler i den främre serien anges 2 rundningsgrader (orundad, rundad). För icke-låga vokaler i den centrala serien anges 2 rundningsgrader (orundad, rundad). Ingen rundingskontrast anges i den bakre vokalserien. Kommentarer: I den främre vokalserien är det alltså bara a-positionen som inte delas upp i en rundad och en orundad variant; läpprundning torde där vara mycket ovanlig. I den bakre serien torde de icke-låga för det mesta vara rundade. Den låga vokalen förekommer som både rundad och orundad, men denna skillnad är ofta ganska subtil och behöver inte anges i grovtranskriptionen. Tabell 1. Dimensioner 11 och teckenkoder för vokaler. Motsvarande IPAsymboler anges inom hakparenteser. Främre Central Bakre Orundad Rundad Orundad Rundad Hög i [K] y [[] I [Ó] U [Œ] u [W] Halvhög e [G] ö [1] o [Q] Halvlåg ä ['] o_e [ ] E [ ] O_E [2] O [n] Sänkt halvlåg Ä [3] Ö [ ] Låg a [C] A [#] Två tillägg till basinventariet anges i transkriptionssystemet med hjälp av diakritiska tecken: a) Kvantitet betecknas som i IPA med kolon, t.ex. skulle standardsvenskt väg bli vä:g i vårt system. Lång konsonant dubbeltecknas däremot standardsvenskt uttal av vägg skulle alltså anges som vägg. b) Nasalitet betecknas med efterställd tilde, (t.ex. a Ñ), påminnande om motsvarande i IPA. Dessutom binds de digrafer som svarar mot IPA [ ] och [2] ihop med understreck. 11 Lägg märke till likheterna med Jones kardinalvokalsystem.
01-05-04 25 Längd- och nasaltecken används endast för vad som tycks vara fonematiska ytkontraster. Exempelvis används längdtecken för att markera långt a-ljud i tak till skillnad från kort a-ljud i tack, men inte för att markera effekter på frasnivå som t.ex. finalförlängning eller koartikulationseffekter som vokalförlängning före /T/; nasaltecken används där det tycks finnas en fonematisk kontrast mellan icke-nasal och nasal vokal, men inte för att ange t.ex. att en vokal är normalt nasalerad före nasalkonsonant. 12 I ett fonologiskt perspektiv kan dessa markeringar ofta bli överflödiga. Det finns t.ex. argument för att kvantitetsväxling i vokal bör ses som en bieffekt av geminering av följande konsonant, eller för att nasalvokaler ofta kan härledas ur underliggande sekvenser vokal+nasalkonsonant. Men vår transkriptionsmetod syftar på det här stadiet till en grov beskrivning av samplens fonetik, inte till en analys av mer abstrakta fonologiska samband. (ii) Diftonger För diftonger används samma grundläggande teckenuppsättning som för de enkla monoftongerna. Även om diftongens början och slut inte exakt motsvaras av någon av monoftongerna anges de med hjälp av närmast motsvarande uppsättning vokaltecken. Gränsdragningen mellan monoftong och diftong kan diskuteras. Hur gör vi t.ex. då vokalerna i basinventariet är kraftigt diftongerade? Ta t.ex. vokalerna i Bara-dialekten (SV Skåne). 13 Diftongeringen är ofta mycket påtaglig. Är detta ett kriterium för att ange diftongering i vår grovfonetiska transkription? Andra dialekter företer andra diftongeringstyper. Exempelvis finns i Mälardalen en tendens till offglide mot neutralvokal, som i de höga vokalerna ofta föregås av en klangskärpning eller ett lätt friktionsbrus. Denna diftongeringstyp föreligger i olika grad i olika delar av Mälardalen. Hur behandlar vi dessa och liknande fall? En principiell lösning för transkription av diftonger (i dialekter typ Sproge) återstår fortfarande att utarbeta. Under tiden avvaktar vi med sådant material. I dialekter med måttlig diftongering används konsekvent närmast motsvarande monoftongtecken. Diftongering markeras i 12 Särskilt markanta effekter av detta slag, t.ex. en ovanligt kraftig antecipatorisk av vokal före nasalkonsonant, kan i stället noteras i en särskild kommentarfil (se avsnittet om taggning nedan). 13 Dessa påminner mycket om motsvarande i Malmö-dialekten; se Bruce, G., 1970: Diphthongization in the Malmö dialect. Working Papers 3, Phonetics Laboratory, Lund University, 1-19.
01-05-04 26 kommentarraden. Vi kommer då att kunna fråga databasen: Hur realiseras t.ex. långt i i den och den dialekten? Den mera avancerade fonetiska analysen av diftongeringar blir då en av de många möjliga forskningsuppgifter som databasen inbjuder till. (iii) Konsonanter Klusiler 4 artikulationsställen: bilabial, dental/alveolar, supradental och velar. Var och en av dessa kan vara tonande eller tonlös. I det auditiva transkriptionsarbetet avstår vi från kontrasten dental vs. alveolar, som visserligen tycks vara dialektskiljande men är svår att konstatera tillförlitligt på endast auditiv grund. Se tabell 2. Tabell 2. Klusilkategorier och teckenkoder. Bilabial Dental/ Supradental Velar Alveolar Tonlös p [R] t [V] T [Ü] k [M] Tonande b [D] d [F] D [Ç] g [I] Preaspiration anges med h. 14 Frikativor 6 artikulationsställen: labiodental, dental ( läspljud ), alveolo-dental ( s-ljud ), supradental ( främre sje-ljud och rskombinationer ), palato-alveolar ( tje-ljud ) och velar ( bakre sje-ljud inklusive ev. uvulara. Sannolikt är det bara för dentalerna som kontrasten tonande/tonlös behöver anges. Om tonande s behövs används z. Se tabell 3. Tabell 3. Frikativkategorier och teckenkoder. Labiodentadentadental Dental Alv- Supra- Pal-alv Velar/ Uvular Tonl. f [H] 0 [6] s [U] S [ ] k_j [Û] x [Z] Ton. v [X] 6 [&] Obs. användningen av tecknen 0 (noll) och 6 (sex) som ska påminna om IPA-symbolerna för tonlöst resp. tonande dentalt läspljud. 14 Se vidare avsnittet om kvantitet.