1 Tredjetonen i mandarin - En studie om fonologisk representation och tonbärande enhet Emma Östergren Kandidatuppsats i Fonetik: kandidatkurs, ht 211 Lunds Universitet, Språk- och litteraturcentrum Handledare: Merle Horne
2 Abstract This thesis claims to prove the hypothesis that the third tone in Standard Chinese, aka Mandarin Chinese, should be represented as an underlying low tone, phonologically. Though the surface structure of the third tone differs from the underlying low tone, the differences can be explained with a syntactic and prosodic analysis, which this thesis has proved. A recording of a Mandarin speaker has shown the representation of the third tone in different contexts, in which the deviations have been explained with the help of prosodic features such as boundary tones. The second aim for the study was to find out what the tone bearing unit is in Standard Chinese. Through measurements of syllable and rhyme duration the essay has somewhat established that the moraic unit (a time unit of the rhyme constituent) is presumably the tone bearing unit. Argument for the hypothesis is that the contour of a tone can be more complex when the rhyme has longer duration. What is also noticeable is that the third tone often includes a creaky voice, which can be seen as a segmental feature rather than a suprasegmental. Thus perception studies concerning the creaky voice s importance for the perception of the third tone would be of great interest. Förord Jag skulle vilja tacka min handledare Merle Horne för all hjälp och min informant Zhang Pu för hennes medverkan. Dessutom vill jag tacka Mikael Roll, Susanne Schötz och Sofia Claesson för teknisk support. Innehållsförteckning Sid. Abstract 2 Förord...2 Lista över förkortningar.....3 Lista över tabeller...4 Lista över bilagor. 4 1 Introduktion 4 2 Bakgrund...5 2.1 Tonspråk 5 2.2 Toner i mandarin..6
3 2.2.1 Transkribering av toner..6 2.3 Tonsandhi i mandarin 7 2.4 Metrisk fonologi i mandarin...8 2.5 Tonbärande enhet...9 2.6 Fokus, intonation och F...1 2.7 Fonologisk analys av T3.11 2.7.1 Optimalitetsteori (OT).11 2.7.2 Hypoteser om T3 12 3 Frågeställningar...13 4 Metod...13 4.1 Informant..13 4.2 Material 14 4.3 Bearbetning och analys..14 5 Resultat.15 5.1 Tonhöjd 15 5.2 Duration och tonhöjd...27 5.3 Sammanfattning...32 6 Diskussion 33 6.1 Reflektioner.36 7 Slutsats och framtida forskning..38 8 Referenser 38 Förkortningar A ansats ASP aspektsmarkör F grundtonsfrekvens GEN genitivmarkör Hz Hertz IPA International Phonetic Alphabet (Internationella fonetiska alfabetet) M måttsord m mora OT optimalitetsteorin R rim
4 S stavelse TBU time bearing unit (tonbärande enhet) Tabeller Tabell (1): Stavelsedurationer för ordet ma (häst) med snabb talhastighet Tabell (2): Stavelsedurationer för ordet bai (hundra) med snabb talhastighet Tabell (3): Stavelsedurationer för ordet wo (jag) med snabb talhastighet Tabell (4): Stavelsedurationer för ordet wo (jag) med långsam talhastighet Tabell (5): Stavelsedurationer för samtliga ord i satsen Wo ye xiang mai shuiguo Tabell (6): Rimandel av hela stavelsens duration för ordet ma (häst) Tabell (7): Rimandel av hela stavelsens duration för ordet mai (köpa) Bilagor Bilaga (1) Lista över inspelade satser Bilaga (2) Lista över duration av stavelser, ansatser, rim och rimandel 1 Introduktion Mandarin är ett tonspråk som talas i Kina. Mandarin är den avgjort största dialekten i Kina och är det språk som används i undervisning och media. Ur ett lingvistiskt perspektiv är toners förekomst ett intressant studium. Studier har gjorts ur prosodiska, fonetiska, syntaktiska och fonologiska perspektiv. Ton har diskuterats i samband med betoning, stavelsestruktur, tonsandhi etc. Ur det fonologiska perspektivet är frågan om vilken som är den tonbärande enheten i mandarin fortfarande ett ämne under debatt. Tidig forskning hänvisar till ton som ett suprasegmentellt drag, medan senare studier pekar på att tonen är segmentell. Vilket segment tonen tillhör är dock oklart och de olika åsikterna om detta presenteras i kapitel 2. Av mandarins fyra toner har den tredje flest realiseringar tonalt. I tal uppvisar tonen stor tonal variation beroende på vilken kontext den återfinns i. Bland annat förändras tonen när den följs av en annan tredjeton och uppvisar då ett akustiskt mönster likt en andraton (detta är en sorts tonsandhi, vilket diskuteras närmare i 2.3). På grund av tredjetonens komplexa natur är dess fonologiska klassificering omtvistad. Frågan för debatt är huruvida tonen ska ses som en låg ton, L, (Duanmu 199) eller möjligtvis en
5 låg ton följd av en flytande hög ton, L(H), (Milliken 1989). Genom hänvisning till optimalitetsteorin tycks Duanmu kunna rättfärdiga att den tredje tonen är fonologiskt en låg ton (Duanmu 1999). Optimalitetsteorin och de olika idéerna om tredjetonens fonologiska representation förklaras närmare i kapitel 2. Det här är en studie i mandarin, med inriktning på den tredje tonen. Syftet med uppsatsen är att undersöka vilken den tonbärande enheten är, samt att söka bevis för Duanmus hypotes att tredjetonen fonologiskt är en låg ton. Genom akustisk analys av inspelat material ska klarhet kunna skapas i dessa frågor. Frågeställningar preciseras i kapitel 3. Inspelningar gjordes med en mandarintalande informant, eftersom tredjetonens variationer återfinns i tal. Variationerna är knutna till kontext. Val av kontexter, material, informant och tillvägagångssätt presenteras och diskuteras i kapitel 4. Resultat presenteras i kapitel 5 och diskuteras i kapitel 6. 2 Bakgrund För att tydliggöra vad studien handlar om krävs först och främst en genomgång över vad ett tonspråk är och vilka toner som återfinns i mandarin (samt hur dessa kan transkriberas). Sedan förklaras vad tonsandhi är. Vidare presenteras olika syner på vilken den tonbärande enheten är och hur den fonologiska representationen av tredjetonen bör se ut. Dessutom förklaras hur prosodiska drag som fokus och gränstoner verkar i mandarin. 2.1 Tonspråk Språk med toner som betydelseskiljande element heter tonspråk. I sådana språk kallas ordtoner för tonem. Man gör skillnad på toner som behåller sin frekvens över hela tonen och de vars frekvens förändras över tonen. Den tidiga gruppen kallas nivåtoner och den senare konturtoner. Konturtoner består av kombinationer av nivåtoner. Fonologiskt brukar nivåtonerna representeras av bokstäverna L och H, där L står för låg och H för hög. Konturtoner är således antingen LH eller HL. Dessa kallas även för stigande respektive fallande toner. Det finns också komplexa konturtoner, med tre nivåtoner (ex. HLH och LHL).
6 Tonspråk finns även i Afrika och i andra språk i Asien, såsom vietnamesiska. Dessa språk diskuteras inte närmare i den här uppsatsen, då fokus ligger på en specifik ton i mandarin och eventuella jämförelser med andra tonspråk inte är av intresse. 2.2 Toner i mandarin Mandarin är ett tonspråk med fyra toner. Alla stavelser bär en av dessa toner, utom de som bär en så kallad femte ton, vilken kallas för nollton eller neutral ton. Nolltonen är egentligen frånvaro av ton och kännetecknar ofta andra stavelsen i disyllabiska ord. Enligt Tone-Stress Principle i (1) beror det på att dessa stavelser är obetonade: (1)Tone-Stress Principle a) A stressed syllable can be accompanied by an underlying tone pattern b) An unstressed syllable is not accompanied by an underlying tone pattern (Duanmu, : 23) I tal förlorar uppskattningsvis upp till en tredjedel av allt tal sin ton (Duanmu ), eftersom dessa stavelser är obetonade. Toner varierar inte bara i frekvens utan också i duration. Den fjärde tonen kännetecknas av ett kort fall (Zhang & Lai 21) och den tredje är den ton med längst duration. 2.2.1 Transkribering av toner Det finns flera sätt att visa i skrift vilken ton ett ord har. Exempel på samtliga system följer i exempel (2) (Duanmu ): (2) Transkribering av toner. Exempel med stavelsen ma: a) T1 T2 T3 T4 b) ma1 ma2 ma3 ma4 c) ma ma ma ma d) ma55 ma35 ma214 ma51 e) mā má mǎ mà f) mha mar maa mah Svensk översättning: mamma hampa häst skälla (på)
7 I (2a) betecknas tonerna med siffror, där T1 står för den första tonen, T2 den andra etc. Vanligt förekommande är också att skriva siffrorna efter stavelsen: ma1, ma2 etc (2b). Dessa två system tar inte hänsyn till hur tonen ska uttalas. Det gör däremot (2c), som är ett system med figurer 1, där tonhöjden visas för respektive ton, i förhållande till ett referensstreck (toppen av strecket betecknar hög frekvens och botten låg). Dessutom finns en numerisk översättning av detta system (2d), för att beteckna tonerna. Det senare systemet har siffror som betecknar tonhöjden, där 5 motsvarar den högsta och 1 den lägsta relativa tonhöjden hos en ton (relativ eftersom tonhöjd varierar med talares kön, ålder och rösttyp). Vidare transkriberas tonerna vanligast till diakritiska tecken när man transkriberar mandarin till pinyin 2, vilket visas i exempel (2e). Ett annat sätt att benämna tonerna föreslogs då ett nationellt romaniseringssystem tillkom (Chao 1968). Enligt detta system stavar man samma stavelsesegment olika, beroende på vilken ton den bär (2f). Inom autosegmentell fonologi används beteckningarna H ( hög ) och L ( låg ) för att representera tonala mönster. Tonerna i mandarin skulle således kunna beskrivas som hög, H, eller låg, L, eller en kombination av dessa. Den första tonen är en hög (H) nivåton, den andra en stigande (LH) konturton och den fjärde är en fallande (HL) konturton. Vilken fonologisk beteckning den tredje tonen har skrivs mer om senare, eftersom det är ämnet för diskussion. I uppsatsen kommer tonerna benämnas enligt systemet: T1, T2 etc., i vilket system den femte tonen, nolltonen, betecknas T5. I lingvistiska exempel skrivs tonen ut efter stavelsen. 2.3 Tonsandhi i mandarin Tonsandhi är en process som gäller ljudförändringar i tal. Tonsandhi påverkar ords tonala struktur när orden förekommer i sammanhängande tal. Ordet sandhi kommer från sanskrit och betyder hopfogning. I mandarin finns det flera sandhiprocesser. Ett exempel på sandhi rör orden yi, qi, ba och bu. Yi, qi och ba är T1 och bu är T4, men när de står före en T4 i tal uttalas de som T2. Principen visas i exempel (3) och exemplifieras i (4): (3) Yi (ett), qi (sju), ba (åtta) T1 T2 / T4 1 Det system för toners beteckning som återfinns i IPA (International Phonetics Alphabet) 2 Pinyin är transkribering av kinesiska tecken till det latinska alfabetet
8 bu (inte) T4 T2 / T4 (4) Ta1 bu4 yao4 Ta1 bu2 yao4 Han/hon inte vilja Han/hon vill inte Yi, qi, ba, och bu har en gång tillhört samma stavelsekategori: Ru, vilket anses förklara att deras tonala mönster varierar idag. I andra kinesiska dialekter finns den här kategorin fortfarande kvar, men i mandarin har orden i kategorin delats in i olika tonala kategorier, dvs. de har olika toner. Orden förändras inte bara när de står framför en T4: Före T1, T2 och T3 blir yi, qi, ba och bu vanligtvis en T4 (Duanmu 7). Den mest diskuterade sortens sandhi är den som berör T3, så kallad T3-sandhi. När en T3 följs av en annan T3 genomgår den första T3 sandhi och blir en T2. T3-sandhi visas i exempel (5) och exemplifieras i (6): (5) T3 T2 LH/ T3 (6) Shui3guo3 Shui2guo3 Frukt Det finns olika åsikter om hur sandhiprocessen ser ut när fler än två ord med T3 följer varandra. 2.4 Metrisk fonologi i mandarin Mandarin har trokéiska fötter. Det betyder att betoningen i en disyllabisk fot ligger på den första stavelsen. Den första delen i en trokéisk fot är den starka stavelsen: det betonade huvudet i foten. Enligt Binarity constraint består en fot av två slag. Enstaviga ord har då ett tomt slag (enligt principen att en stavelse behöver inte vara hörbar) (Duanmu ). En stavelse i mandarin har en obligatorisk kärna bestående av en vokal. Varken ansats, som kan bestå av en konsonant och/eller ett glidljud, eller koda är obligatoriska för att skapa en fullständig stavelse i mandarin. Eftersom begrepp som ansats och rim etc. kommer att fortsätta förekomma i uppsatsen visar figur (1) en stavelsestruktur:
9 Figur (1): Stavelsestruktur (S= stavelse, A= ansats, R= rim, K= kärna, C= koda). Mandarin har en väl utvecklad metrisk fonologi som i flera avseenden till och med verkar dominera över den tonala strukturen. Man gör skillnad på fulla och svaga stavelser i mandarin, där den fulla har betoning och kan bära ton. En svag stavelse är vanligtvis obetonad och kan således inte bära ton (se Tone-Stress Principle ovan). Prosodiska ord med både full och svag stavelse är vanliga. På grund av den trokéiska fotstrukturen är det vanligtvis den andra stavelsen i ett sådant ord som förlorar sin ton. Detta visas i exempel (7): (7) Ge1ge1 Ge1ge5 Bror Stavelsers eventuella tonlöshet styrs också av syntax. I kombinationen verb + objekt har objektet huvudbetoning, medan i kombinationen modifierare + substantiv är det modifieraren som har huvudbetoning (Duanmu ). 2.5 Tonbärande enhet Åsikterna går isär i fråga om vilken som är den tonbärande enheten i mandarin. En tonbärande enhet är den enhet i språket som bär ton. Det fanns tidigare en generell uppfattning om att tonen är en suprasegmentell egenskap, men numera tror de flesta att tonen är segmentell (Duanmu, ). Nedan följer en figur 2 som sammanfattar hypoteser om tonbärande enhet (Duanmu : 218):
1 Figur 2: Ordet mai (sälja), med T4. De fem huvudhypoteserna angående tonbärande enhet: a) W. Wang 1967, Chao 1968, b) Kratochvil 197, Howie 1976, c) Hyman 1985, d) Hayes 1989, e) Woo 1969, Duanmu 199. S= stavelse, O= onset (ansats) och R= rim. Figur (2a) visar att hela stavelsen (S) skulle vara den tonbärande enheten. I (2b) är det däremot rimmet (R) som bär ton. (2b) liknar (2e) och (2d) i detta avseende. Figur (2c-e) utgår från att begreppet mora, vilket förklaras nedan. Skillnaden mellan dem är att figur (2c) visar att både ansats och rim skulle bära ton, medan i (2d) och (2e) förknippas rim med ton. I (2e) kopplas ton samman direkt med rimmet, och inte med moror. Forskning pekar på att det är moran som är den tonbärande enheten (Duanmu : 219). Tanken är att tonen associeras med stavelserimmet, men det är inte riktigt så enkelt. Det verkar som att den tonbärande enheten är en mora. Mora är en tidsenhet som bidrar till en stavelses tyngd. En lång stavelse har två moror och en kort en. En lätt stavelse är monomoraisk, en tung bimoraisk och en supertung trimoraisk (Duanmu ). I mandarin är en full stavelse (en betonad stavelse vars motsats är en svag stavelse, vilken är obetonad och kortare i duration än en full) bimoraisk och kan således ha två tonbärande enheter. Det betyder att en stavelse kan ha en nivåton eller en simpel konturton. Det finns också komplexa konturtoner, men de är ovanliga, eftersom de kräver tre moror. Så pass tunga (med andra ord långa) stavelser förekommer vanligen i slutet av satser, när stavelsen lättare är förlängd (Duanmu ). 2.6 Fokus, intonation och F Man gör skillnad på smalfokus och bredfokus, där den tidiga sortens fokus syftar till betonade ord/stavelser och den senare inte har någon specifik betoning på något segment i en sats. I mandarin kännetecknas smalfokus av att ord med T1, T2 och T4 får en högre F-topp i den betonade stavelsen, medan ord med T3 får en lägre F-dipp i
11 betonad position. Med ett bredare fokus hamnar vanligtvis betoningen i slutet av satsen. F-omfånget är då också något bredare i slutet av en prosodisk fras (Lin & Li 211). En betonad stavelse har större tonhöjdsomfång än en stavelse som är obetonad (Duanmu ). Det finns olika gränstoner i mandarin, som beror på satstyp. Med en interrogativ intonation får det sista ordet i satsen förhöjd grundtonsfrekvens. I en deklarativ sats får däremot det sista ordet sänkt F. Det är hela ordtonen som påverkas av gränsen. Ett isolerat ord har ett slags mellanläge i grundtonsfrekvens, jämfört med tonhöjden för interrogativ och deklarativ intonation (Lin & Li 211). En sats som uttrycks med frågeintonation påverkar hela yttrandets F genom en höjning, genom hela satsen (Duanmu ). 2.7 Fonologisk analys av T3 Det finns flera antaganden om hur T3 ska ses ur ett fonologiskt perspektiv. För att förstå Duanmu s förklaring (Duanmu, ) av T3 som en låg (L) ton ges först en förklaring av optimalitetsteorin, som ligger till grund för hans hypotes. 2.7.1 Optimalitetsteori (OT) Optimalitetsteori är en grammatisk teori som bygger på ett antal restriktioner. Teorin säger att dessa restriktioner styr språket, och att de har en inneboende hierarki. Det betyder att det finns vissa restriktioner som är dominanta över andra, och att de som är högst rankade är de grammatiska restriktioner som avgör hur språket ser ut. Samma restriktioner återfinns i alla världens språk, men språken delar inte samma rankning av dem (Prince & Smolensky 1993). De restriktioner som gäller tonala variationer i mandarin är följande (Duanmu 1999): T-distinction: A stressed syllable must maintain its tonal distinction Polarity: An initial tone is followed by an opposite tone at surface in an S-foot Simple tone: Avoid contour tones T-distinction betyder att tonerna måste bibehålla sin tonala distinktion i en betonad stavelse. Distinktionen syftar till att tonerna ex. är höga och låga, dvs. ej har samma tonala mönster, så att de kan identifieras. Restriktionen som kallas Polarity betyder att
12 ex. en låg ton följs av en hög ton på ytan, dvs. i den tonala struktur som återfinns i tal, inom en stavelsefot (S-foot). Restriktionen syftar alltså inte till den grundläggande fonologiska formen, utan till ytstrukturen. Med restriktionen Simple tone menas att konturtoner ej är att föredra. De enklare nivåtonerna skulle således vara optimala. Villkoren är av följande rang: T-distinction >> Polarity >> Simple tone. Det betyder att den viktigaste restriktionen som ska efterföljas är den angående tonal distinktion. Om ett språk bryter mot den restriktion som är högst rankad anses det ogrammatiskt. Ett brott mot villkoret om polaritet är inte lika allvarligt. I mandarin bryts den tredje tonala restriktionen eftersom det finns konturtoner (Duanmu 1999). 2.7.2 Hypoteser om T3 T3 har tonala variationer beroende på kontext. Dessa allotoner ligger till grund för osäkerhet om T3s grundläggande fonologiska form. Dess tonala variationer betraktas vara (enligt Chao s numeriska system som förklarades i avsnitt 2.2.2): 21 (Chao 1968) eller 211/11 (Chao 1931, L. Wang 1979) i icke-final position 214 eller 114 när den är monosyllabisk 35 föregående en annan T3 (tonsandhi) (Duanmu ) Ovanstående fakta gör att det blir oklart om T3 är fonologiskt en nivåton eller en konturton. I litteraturen benämns den ibland som låg och ibland som stigande-fallande. När T3 är monosyllabisk är den dessutom betydligt längre än andra toner, vilket gör att vissa hävdar att den har tre moror. Då mororna anses kunna bära ton påverkar längden realiseringen av T3 (Duanmu, ). Duanmu menar att den grundläggande formen av T3 är den icke-finala formen (21) och att avvikelser från denna kan förklaras av ovan nämnda optimalitetsteorirestriktioner (Duanmu, 1999). Då skulle T3 vara en låg (L) ton som följs av en motsatt ton, dvs. en hög (H) ton, i ytstrukturen, enligt restriktionen om polaritet (se avsnitt 2.8.1). Milliken menar att det finns en flytande hög ton som följs av den låga T3 i vissa kontexter, och betecknar därför T3 som L(H) där (H) täcker de variationer av T3 när den har en stigning, det vill säga i final position och i T3-sandhikontext (Milliken 1989). Den finala T3 s tonala värde påverkas också av syntax (Duanmu : 222).
13 3 Frågeställningar Eftersom åsikterna går isär angående vilken den tonbärande enheten är finns det ett intresse av att undersöka detta i studien. Den första frågeställning är således: Vilken är den tonbärande enheten? Vidare syftar uppsatsen till att skapa en uppfattning om vilken fonologisk beteckning T3 bör ha. Med hjälp av ett inspelat material bör man kunna se vilken realisering av T3 som är den vanligaste och förklara avvikelser från hypotesen med hjälp av en syntaktisk och prosodisk analys. Den andra frågeställning lyder alltså: Vilken är den fonologiska underliggande representationen för tredjetonen? Stämmer Duanmus hypotes om T3 som en låg (L) ton? 4 Metod För att få kunna studera T3s tonala realiseringar samt den tonbärande enheten gjordes en inspelning med en mandarintalande informant i det eko-fria rummet i Humanistlaboratoriet på Lunds universitet. Inspelning gjordes i programmet Audacity. Den akustiska representationen av T3 ligger till grund för diskussionen om vilken den grundläggande fonologiska formen av T3 har. T3 varieras som nämnts i olika kontexter. Kontexterna för inspelningen presenteras i avsnitt 4.2. Genom inspelningen kartlades den vanligaste tonala realiseringen, och avvikelser från den förklarades genom en syntaktiskt och prosodisk analys. Mer om resultat och analys finns i kapitel 5 och 6. 4.1 Informant Inspelning gjordes med en informant från Peking, som har mandarin som modersmål. Tio meningar/ord där ett ord med T3 ställts i olika kontexter spelades in. Kontext och material presenteras nedan (4.2). Informanten ombads läsa upp meningarna två gånger: en gång långsamt och en gång snabbare, varav den snabbare versionen i större utsträckning efterliknade vardagligt tal. Detta gjordes eftersom talhastighet kan påverka tonerna (som tidigare nämnts kan obetonade stavelser förlora sin ton). Dessutom spelades varje testord/mening in två gånger. Innan inspelning lästes materialet igenom
14 och informanten avgjorde om hon tyckte att meningarna var grammatiskt och idiomatiskt korrekta. En mening slopades 3. Det kan finnas negativa sidor av att endast spela in en person. Förutom tidsbrist grundar sig valet av endast en informant i tonala variationer mellan talare. Dels är tonhöjden relativ, dvs. individuell, och material från ett tiotal talare, skulle också det vara vanskligt att generalisera. Inspelningen fungerade som ett stöd för diskussionen, men i huvudsak är frågeställningarna behandlade ur ett teoretiskt perspektiv, där hänsyn tas till att inspelningen endast representerar en individs tonala realiseringar av T3. Den andra svårigheten med att spela in flera informanter är att dialektala bakgrunder kan ge olika toner. Dialekter i Kina skiljer sig mycket åt, och även om en informant är talar mandarin flytande, kan familjens dialekt påverka informantens språk. 4.2 Material T3 varierar som sagt efter kontext. För att nämna ett exempel realiseras T3 som T2 när den påverkas tonsandhi (avsnitt 2.3). Det är också skillnad på T3 när den uttalas isolerat kontra inne i en sats. De kontexter som valdes för att positionera T3 i är följande: 1. Isolerat: ord med T3 står isolerat 2. Mellan andra nivåtoner: ord med T3 står mellan två stycken T1 3. T3-sandhi: ord med T3 följs av annan T3 4. Mellan nolltoner: ord med T3 står mellan T5 När en T3 står mellan två T5 torde den tonala påverkan av omkringliggande ljud vara minimal, eftersom T5 anses vara tonlös. T3 är i materialet ställt i både initial och final position, i kontext nummer ett, för att klargöra eventuella gränstoner. För att kunna analysera tonala realiseringar i PRAAT valdes T3-ord som består mestadels av sonoranter, eftersom det är de tonande ljuden som ger tydlig F-kurva. I bilaga (1) återfinns samtliga ord/meningar som spelades in. 4.3 Bearbetning och analys Inspelning gjordes i programmet Audacity. Inspelningens sampling frequency 4 låg på 41 Hz och dess bit depth 5 var 32 bits. Brusreducering och normalisering av 3 You ma hen pang. (=Det finns tjocka hästar) Valdes bort ur materialet, då man inte kan använda adjektivet pang (tjock) om något annat än människor.
Pitch (Hz) 15 ljudvolym gjordes i programmet Audacity. Den akustiska analysen gjordes sedan i programmet PRAAT. Där mättes duration av ansats och rim, samt F-kurvans timing i förhållande till stavelsesegment. Av materialet gjordes tabeller som finns i kapitel 5. 5 Resultat Under resultat finns tonhöjdskurvor för inspelade yttranden, för att visa de olika tonala realiseringarna av T3 i avsnitt 5.1. Dessutom kopplas resultat om tonhöjd samman med durationsmätningar av stavelser och rim ihop i avsnitt 5.2. 5.1 Tonhöjd I de isolerade kontexterna realiseras T3 övervägande som en relativt låg ton. Här är T3 monosyllabisk och bör få F-mönstret 214 eller liknande. Tonhöjden i det inspelade materialet är dock inte nämnvärt högre i slutet av stavelsen än i början. Tonhöjden blir halverad i stavelsens mitt och det förekommer knarr, som gör att konturen ser fallandestigande ut. Tonhöjden ligger i det höga partierna kring Hz. Figur (3) visar alla fyra inspelade versioner av det monosyllabiska wo (jag): 5 wo.4251.4844.528.54 Time (s) Figur (3). Tonhöjd hos fyra inspelade varianter av wo (jag) i isolerad kontext. Oavsett talhastighet liknar tonhöjdskurvorna varandra. Liknande resultat gäller för testordet bai (hundra), som visas i figur (4): 4 Sampling frequency= antalet mätvärden per tidsenhet 5 Bit depth= antalet bitar information inspelat för varje mätvärde
Pitch (Hz) Pitch (Hz) 16 5 bai.5651.5385.448.385 Time (s) Figur (4). Tonhöjd hos fyra inspelade varianter av bai (hundra) i isolerad kontext Dippen i tonhöjd ser ut att komma tidigare i bai än i wo, vilket kan förklaras av att ansatsen i bai är kortare än i wo. Ansats, duration och tidsbärande enhet diskuteras vidare i avsnitt 5.2. I figur (5) visas en version av bai där ljuden är segmenterade till pinyin 6. 5 b ai.448 Time (s) Figur (5). Tonhöjd för ordet bai (köpa) i isolerad kontext. Hos ett annat testord, ma (häst), i isolerad kontext, är dippen i tonhöjd inte lika stor som hos wo. Det är bara i ett fall av fyra (en av de inspelningarna med snabbt tal) som det 6 Pga. Svårigheter och tvetydigheter med segmentering till fonetiska symboler valdes pinyin. Rimmet i bai behandlades som ett ljud, ai.
Pitch (Hz) Pitch (Hz) 17 finns en rejäl dipp, med tillhörande knarr. Det fallande-stigande mönstret finns fortfarande där, men fallet och stigningen är inte lika brant. Det beror på att knarret har uteblivit i tre fall av fyra. Alla inspelade versioner av isolerad ma visas i figur (6): 5 ma.3715.3961.5387.4987 Time (s) Figur (6). Tonhöjden hos fyra inspelningar av ordet ma (häst) i isolerad kontext. En version av ma segmenterat till pinyin visas i figur (7): 5 m a.4987 Time (s) Figur (7). Tonhöjd hos yttrande av ma (häst) i isolerad kontext. En annan version av ma, den enda med knarr, visas med tillhörande ljudvåg och spektogram i figur (8).
Pitch (Hz) 18 Figur (8). Vågdiagram, spektogram och segmentering till pinyin för yttrande av ordet ma (häst) med knarr i mitten av stavelsen (därav avbrott i den blå tonhöjdskurvan). Yi (ett) får en fallande kontur, HL, innan T3 i satsen Yi bai yi (etthundraett). Vanligtvis bär yi T1 och är hög, H. Yi bai yi visas i figur (9): 5 yi yi bai.9623 1.626 1.322 1.2 Time (s) Figur (9). Tonhöjden hos fyra inspelningar av satsen Yi bai yi (etthundraett). Den fallande konturen beror på att yi tillhör den historiska stavelsekategorin Ru, vilket innebär att tonen idag förändras beroende på tonal kontext. Det är dock skillnad på tonal realisering när yi är grundtal och ordningsnummer. Den fallande konturen HL hos
Pitch (Hz) 19 yi förekommer när ordet är ett grundtal (är det ett ordningsnummer är tonen oförändrad, dvs. H) (Duanmu ). Bai kännetecknas också i den här kontexten, dvs. mellan två ord som har T1 som underliggande ton, av knarr. I figur (1) visas ett exempel på ett segmenterat yttrande av yi bai yi: 5 yi b ai yi 1.2 Time (s) Figur (1). Tonhöjden hos yttrandet yi bai yi (etthundraett), uttalat snabbt. När ordet wo står i kontexten mellan två T1: gen (med) och chi (äta) har stavelsen ett initialt fall, vilket är brantare än i Yi bai yi. Det handlar om tonal transition: ett naturligt inslag i tal, en slags tonal koartikulation, där en ton tar vid där den andra slutar i tonhöjd så länge ljuden är sonoranta. Då yi i föregående exempel Yi bai yi, är att räkna som en fallande ton, blir fallet inte lika brant som i Gen wo chi. Figur (11) visar alla inspelade versioner av yttrandet Gen wo chi:
Pitch (Hz) Pitch (Hz) 2 5 gen chi wo.893.8685 1.513 1.933 Time (s) Figur (11). Tonhöjd hos fyra yttranden av Gen wo chi (Ät med mig). Knarr förekommer hos wo också i den här kontexten. Det branta fallet i tonhöjd förekommer på stavelsens ansats, och knarret förekommer under nästan hela stavelsens rim, vilket tydliggörs i figur (12): 5 gen w o chi.893 Time (s) Figur (12). Tonhöjd för yttrandet Gen wo chi (ät med mig), när det uttalats snabbt. När ett ord med T3 står mellan två ord med T5 är den fortsatt låg i tonhöjd, i förhållande till de andra tonerna. Det syns i exemplet Ta mai le wo de shu (Han köpte min bok), där wo (jag) är ett ord med T3 som står mellan två grammatiska partiklar med T5: le
Pitch (Hz) 21 (aspektsmarkör som indikerar avslutad handling) och de (genitivmarkör). I figur (13) visas tonhöjden hos ett uttryck av Ta mai le wo de shu med långsamt taltempo: 5 ta m ai le w o de shu 2.648 Time (s) Figur (13): Tonhöjd för yttrandet Ta mai le wo de shu (Han köpte min bok). I ovanstående yttrande avslutas de två orden med T3, mai (köpa) och wo (jag), med knarr. Den finala stigning som återfinns när ord med T3 står isolerat finns alltså inte när orden förekommer inne i en sats. Den här typen av tredjeton kallas ibland för halv tredjeton. Mai och le bildar tillsammans ett prosodiskt ord, där le är en bestämning av verbet mai. Wo och de är ett annat prosodiskt ord, i vilket de är en genitivmarkör som ändrar betydelsen av wo från jag till min. I den här typen av kontext får orden med T5 en relativt hög tonhöjd. Tonhöjden hos ord med T5 bestäms av föregående stavelses ton. Föregås ord med T5 av ord med T1, T2 eller T4 blir T5 relativt låg, medan en föregående T3 ger ord med T5 en högre tonhöjd (Duanmu ). I satsen Wo de ma de pengyou (Min hästs vänner) finns två ord med T3: wo (jag) och ma (häst). De följs vardera av en genetivmarkör, de, som har T5. Ma har i alla inspelade versioner av yttrandet knarr. Wo står initialt och har inte samma dipp som ma. Det är ma som har knarr. Figur (14) visar tonhöjden för ett yttrande av Wo de ma de pengyou. Orden med T5, de, får fortsatt relativt hög tonhöjd, enligt principen ovan som säger att när de följer en T3 är detta fallet.
Pitch (Hz) 22 5 w o de m a de peng you 1.368 Time (s) Figur (14). Tonhöjd för yttrandet av Wo de ma de pengyou (Min hästs vänner). Det satsfinala ordet you tillhör ordet pengyou (vän) och har T3 som underliggande fonologisk ton. I sammansättningen blir stavelsen dock snarare tonlös och får sitt tonala mönster av föreliggande peng, vilken har T2 och alltså är stigande, LH. Det gör att you har fått en fallande ton, HL, men tonhöjdsomfånget är inte lika stort som för en T4. Dessutom har you knarr i stavelsens rim. När aspektsmarkören le står i satsen Yong bi xie le san ben shu (Skrev tre böcker med penna) är röstläget knarrigt inte bara på ordet med T3 utan också på den grammatiska partikeln le. Särdraget med en väsande/knarrig röst har spridit sig även om tonhöjden på le inte är lika låg som hos det föregående ordet med T3: xie (skriva). Det gäller i de versioner när talhastigheten är snabbare, så spridningen av särdraget har med talhastighet att göra. I figur (15) visas ett yttrande med snabb talhastighet av Yong bi xie la san ben shu, med tillhörande spektogram och vågdiagram:
23 Figur (15). Vågdiagram, spektogram och segmentering till pinyin för yttrandet Yong bi xie le san ben shu (Skrev tre böcker med penna), där inte bara två ord med T3: xie (skriva) och ben (stycken; måttsord för böcker), utan också aspektsmarkören le har knarr. Det blå strecken markerar tonhöjd. Figur (15) visar att tonhöjden för ordet bi (penna), som underliggande är T3, har fått en relativt hög tonhöjd, med en tendens till stigande tonhöjdskontur. Detta är ett exempel på tonsandhi rörande T3, vilket visas tydligare i figur (16), vilket är ett yttrande av Yong bi xie le san ben shu med långsamt taltempo.
Pitch (Hz) 24 5 yong b i x ie le san b en shu 3.285 Time (s) Figur (16): Tonhöjden för yttrandet Yong bi xie le san ben shu (Skrev tre böcker med penna). Figur (16) visar på en process rörande tonsandhi: att en T3 får tonalt mönster likt en T2 när den följs av en annan T3. Bi (penna) är ett ord med T3 som följs av ett annat ord med T3: xie (skriva). Bi får i kontexten en stigande kontur, LH, medan xie realiseras som låg, L, och knarrande. I satsen Qing gen wo chi fan (Du kan väl äta mat med mig) finns två ord med T3: qing (snälla) och wo (jag). Vad som är anmärkningsvärt här är att tonhöjden hos qing har har en initial högre maximal tonhöjd än de allra flesta andra ord med T3 i materialet som står initialt i satsen (kring 25 Hz istället för kring Hz). Eftersom qing står först i satsen finns det inga föregående toner som kan ha höjt dess tonhöjd genom tonal transition. Figur (17) visar tonhöjden för alla inspelade yttranden av Qing gen wo chi fan:
Pitch (Hz) Pitch (Hz) 25 5 gen chi qing wo fan 3.19 1.419 1.515 2.982 Time (s) Figur (17): Tonhöjden hos fyra yttranden av Qing gen wo chi fan (Du kan väl äta mat med mig). Att ansatsens tonhöjd är högre hos qing än hos vissa andra kan förklaras av att stavelser som har aspirerade obstruenter som ansats tenderar ha en högre initial tonhöjd (Duanmu ). Orden med T3, qing (snälla) och wo (jag) har låg tonhöjd i rimmet och knarr i de flesta inspelade fall. I figur (18) visas tonhöjd och segmentering för ett yttrande av Qing gen wo chi fan: 5 q ing gen w o chi fan 2.982 Time (s) Figur (18). Tonhöjd hos yttrande av Qing gen wo chi fan (Du kan väl äta mat med mig).
Pitch (Hz) 26 I materialet fanns en sats som bara innehåller ord med T3: Wo ye xiang mai shuiguo (Jag vill också köpa frukt). I kontexten är det bara det sista ordet i satsen som får riktigt låg tonhöjd, vilket som nämnts innan beror på den finala tonhöjdssänkningen i deklarativa satser. Stavelsen shui (vatten) och guo (frukt) bildar tillsammans ett ord: shuiguo (frukt), som i vanliga fall genomgår T3-sandhi, där shui får tonalt mönster likt en T2 och och guo behåller sin ton, T3. Figur (19) visar samtliga tonhöjdskurvor för inspelningar av Wo ye xiang mai shuiguo: 5 wo ye xiang mai shui guo 2.518 1.597 1.559 2.612 Time (s) Figur (19). Tonhöjd hos fyra yttranden av Wo ye xiang mai shuiguo (Jag vill också köpa frukt). En segmenterad version av yttrandet visas i figur (2). Tonhöjden hos de olika orden är varierade för de olika versionerna. En märkbar skillnad gällande talhastighet är att tonhöjdskurvorna är brantare och når högre och lägre extremer i det långsamma talet, eftersom informanten då har haft tid att producera hela tonen och nå dess mål. I det snabba talet, vilket figur (2) visar en version av, är tonhöjdsomfånget hos samtliga stavelser reducerad på grund av tidsbrist. I samtliga inspelade fall för det första ordet, wo (jag), en stigande kontur, LH, och i tre fall av fyra får det andra ordet, ye (också), en fallande kontur: HL. Xiang (vill) och mai (köpa) uppvisar tecken på att innefattas i samma prosodiska fras eftersom xiang har blivit en stigande ton, LH, medan mai har samma tonala mönster som övriga T3 i materialet som återfinns inne i en sats, nämligen fallande/låg, likt en halv tredjeton. Eftersom xiang kan anses vara hjälpverb till
Pitch (Hz) 27 huvudverbet mai är det inte förvånande att orden bildat en grupp. Även om mai i sammanhanget är låg, L, är det som sagt bara guo, det satsfinala ordet, som har knarr. 5 w o y e x iang m ai sh ui g uo 1.559 Time (s) Figur (2). Tonhöjd för yttrandet Wo ye xiang mai shuiguo (Jag vill också köpa frukt). I yttrandet Wo ye xiang mai shuiguo har alla ord relativt låg tonhöjd, som liknar övriga inspelade fall av T3, nämligen kring Hz eller straxt däröver. Det är bara wo och ye som har en relativt hög tonhöjd, med en topp på Hz. Tonhöjden sjunker sedan över hela yttrandet. 5.2 Duration och tonhöjd Duration är mätt för alla ord med T3 i det inspelade materialet. En lista över alla ords durationer finns med som bilaga (2). Stavelsernas duration är mätta, liksom deras ansats och rim, eftersom den tonbärande enheten anses vara rimmet, eller en del av det (en mora). Då mora är en tidsenhet inom rimmet är rimkonstituenters längd i samband med tonhöjdskurvor undersökta. Materialets ordförråd är varierat och samma ord finns inte med i alla kontexter. Det gör att en jämförande analys av ordens duration i olika kontexter endast är gjord för de ord som förekommer i fler än en kontext. En viss del av resultatet presenteras i tabellform i detta avsnitt. Mätningarna visar att orden är längre i isolerad kontext, vilket exemplifieras med ordet ma (häst) i tabell (1) och ordet bai (hundra) i tabell (2), där stavelsedurationer visas för snabb talhastighet.
28 Tabell (1). Stavelsedurationer för ordet ma (häst) med snabb talhastighet i kontexter: isolerad och mellan T5 (Wo de ma de pengyou).,5 Ma: stavelseduration (sekunder),4,3,2,1 Ma: stavelseduration (sekunder) Ma kort 1 Isolerad Ma kort 2 Isolerad Ma kort 1 Ma kort 2 mellan T5 mellan T5 Tabell (2). Stavelsedurationer för ordet bai (hundra) med snabb talhastighet i kontexter: isolerad och mellan T1 (Yi bai yi).,5 Bai: stavelseduration (sekunder),4,3,2,1 Bai: stavelseduration (sekunder) Bai kort 1 Isolerad Bai kort 2 Isolerad Bai kort 1 mellan T1 Bai kort 2 mellan T1 Ovanstående ords rimkonstituenter utgör kring 9 % av stavelsens totala duration. Ett ord som förekom i betydligt fler kontexter är wo (jag) och en sammanfattning av ordets duration i de olika kontexter återfinns i tabell (3) och (4), där de båda talhastigheterna representeras i respektive tabell.
29 Tabell (3). Stavelsedurationer för ordet wo (jag) med snabb talhastighet i kontexter: isolerad, mellan T1 (Gen wo chi och Qing gen wo chi fan), mellan T5 (Ta mai le wo de shu), satsinitialt före T5 (Wo de ma de pengyou) och satsinitialt före T3 (Wo ye xiang mai shuiguo).,6,5,4,3,2,1 Wo: stavelseduration (sekunder) Wo: stavelseduration (sekunder) Tabell (4). Stavelsedurationer för ordet wo (jag) med långsam talhastighet i kontexter: isolerad, mellan T1 (Gen wo chi och Qing gen wo chi fan), mellan T5 (Ta mai le wo de shu), satsinitialt före T5 (Wo de ma de pengyou) och satsinitialt före T3 (Wo ye xiang mai shuiguo).,7,6,5,4,3,2,1 Wo: stavelseduration (sekunder) Wo: stavelseduration (sekunder)
3 Tabell (3) visar att durationen är som längst i den isolerade kontexten. Näst längst är den i kontexterna mellan T1. Det två satserna där T3 förekommer mellan T1 är olika långa (Gen wo chi och Qing gen wo chi fan), vilket förklarar att wo är något kortare i det ena fallet, i den längre meningen. Tabell (4) visar inte samma resultat. Det beror på att informantens talhastighet är betydligt långsammare här och att orden är i det närmaste isolerade, dvs. separerade med pauser inne i satsen. I de senare tre kontexterna (Ta mai le wo de shu, Wo de ma de pengyou och Wo ye xiang mai shuiguo) är dock durationen kortare, men det beror på att dessa satser inte lästes lika långsamt. Jämför man resultaten över tonhöjd med durationen över stavelsen ser man att tonen är som mest komplex i samband med att stavelsen är som längst, dvs. i isolerad kontext. Där har tonen en dipp i tonhöjd, som realiseras som knarr och avslutas med en ton på samma frekvens som den initiala tonhöjden. Variationen i tonhöjd i de olika kontexterna är som mest märkbar i isolerad kontext samt i sandhikontext. Orden med T3 har i satsen Wo de ma de pengyou flera tonala realiseringar. Durationer för samtliga ord i satsen visas i tabell (5), som avspeglar ett yttrande med snabb talhastighet. Tabell (5). Stavelsedurationer för samtliga ord i satsen Wo ye xiang mai shuiguo (Jag vill också köpa frukt) med snabb talhastighet. Wo ye xiang mai shuiguo: stavelseduration (sekunder),4,35,3,25,2,15,1,5 Wo ye xiang mai shuiguo: stavelseduration (sekunder)
31 När ett ord med T3 genomgått tonsandhi får den en mönster likt en T2: LH. Det är en konturton som kräver lika lång duration som en halv tredjeton. Ovanstående tabell visar att durationen ökar närmare satsens slut. Det sista ordet i satsen, som också har den längsta durationen, realiseras likt en isolerad T3: med knarr. I de isolerade kontexterna utgör rimmet en andel av 74 till 94 %. Differensen beror på att olika ord har olika ansatser som har en inneboende längd. Det ord med mindre andel rim är wo, som har en sonorant ansats (w). För ordet ma (häst), som förekommer i två kontexter: isolerad och mellan T5 (Wo de ma de pengyou) skiljer sig rimandelen beroende på kontext, vilket visas i tabell (6). Tabell (6). Rimandel av hela stavelsens duration för ordet ma (häst) angivet i procent, för kontexterna: isolerad och mellant5 (Wo de ma de pengyou). 9 8 7 6 5 4 3 2 1 Ma: rimandel (procent) Ma: rimandel (procent) Tabell (6) visar att rimandelen av den totala stavelsen är längre i isolerad kontext än mellan ord med T5, i vilken kontext det långsammare talet dessutom har något längre rimandel. Ett annat testord, mai (köpa), får längre andel rim ju långsammare talet är, vilket visas i tabell (7).
32 Tabell (7). Rimandel av hela stavelsens duration för ordet mai (köpa) angivet i procent, för kontexterna: mellan T1 och T5 (Ta mai le wo de shu) och mellan T3 (Wo ye xiang mai shuiguo). 9 8 7 6 5 4 3 2 1 Mai: rimandel (procent) Mai: rimandel (procent) Som nämnts ovan liknar det långsamma talet mycket realiseringen av de isolerade orden. Det verkar som att rimmet utgör större del av stavelsen vid långsammare talhastighet, samt i isolerad kontext. 5.3 Sammanfattning Tonhöjden hos de inspelade T3 ligger på cirka Hz. De flesta versioner av T3 har knarr. Särdraget att röstkvalitén är knarrande innebär en halvering av tonhöjden, till cirka Hz. Den höga tonen T1 har en tonhöjd på cirka Hz eller drygt Hz. Ju senare i satsen ett ord förekommer, desto lägre tonhöjd har det, oavsett vilken ton det gäller. Det beror på att intonationen för deklarativa satser är fallande i tonhöjd. De kontexter som gör att ord med T3 avviker från mönstret att ligga kring Hz (och för det mesta ha knarr) är när ordet står före en annan T3, dvs. i sandhikontext. Det innebär att orden med T3 i satsen Wo de ma de pengyou har avvikande tonal realisering från de andra. När T3 är isolerad sägs den ha ett tonalt mönster som kan beskrivas 214 eller 114. Den finala stigning som båda varianter indikerar har inte träffats på i materialet annat än i
33 ovan nämnda sandhikontext. T3 är övervägande låg, och fallande i de fall när den föregås av en hög ton, vilket är en följd av tonal transition. Durationen av ord med T3 är längre i isolerad kontext än i samtliga övriga kontexter. Graden av durationsskillnad varierar beroende på vilket ord det är. Det finns tendenser som pekar på att rimmet utgör större del av stavelsen vid isolerad kontext än övriga kontexter. Rimmet är dessutom något längre vid långsam talhastighet än vid snabb. Många av de versioner av tal när informanten ombads tala långsamt, kan räknas som isolerade, då informanten har pauser mellan orden. Paus finns dock till exempel inte mellan chi och fan, som är ett prosodiskt ord där fan (mat) är ett så kallat resultatskomplement till chi (äta). 6 Diskussion Det finns en underliggande beskrivning av T3 som inte överrensstämmer med tonens ytstruktur. Milliken tar hänsyn till det sammanhängande talets T3 när han ger tonen en flytande hög ton efter en låg, L(H). San Duanmu beskriver T3s underliggande representation som låg, L, men tar samtidigt hänsyn till att tonen realiseras annorlunda i tal. Duanmu ger sin förklaring av detta med hjälp av Optimalitetsteorin, men det är bara en av flera möjliga förklaringar. Vad man vill åt är diskrepansen mellan underliggande representation och ytlig representation (dvs. själva talet). Uppsatsens syfte har varit att ta reda på hur tonen bör representeras underliggande. Med hjälp av det inspelade materialet visas den vanligaste ytliga formen av T3, vilken kan härledas tillbaka till den optimala underliggande formen. Den ytliga strukturen av T3 är varierande, men ett särdrag består i nästan alla kontexter, nämligen knarret. Perception av knarr skiljer sig från perception av vanligt tal. På grund av knarrets låga frekvens kan man uppfatta de separata pulserna i ljudströmmen, vilket skiljer sig från perception av talets kontinuerliga ljudström. Knarr skulle kunna ses som en del av segmentet, och inte som ett suprasegmentellt drag. I isolerad kontext anses T3 vara 214 eller 114. Mitt material stöder inte det; den finala tonen är inte så hög som 4. Att en T3 kallas för dippton, beror på den dipp i frekvens
34 som utmärker den. Om den dippen är detsamma som knarrig röstkvalité är frågan om det verkligen ska räknas som en ändring i tonhöjd. Den sista stavelsen i en sats tenderar ha längre duration, vilket kan härledas till kommunikativa ledtrådar om turtagning etc., det vill säga gränssignalering. Att T3 är längre i final position är därför inte förvånande. Utgår man sedan från antagandet att en mora kan bära en ton är det heller föga förvånande att T3 i final position tycks kunna bära tre toner istället för i övriga fall, två. Det inspelade materialet bestod av deklarativa satser med bredfokus, dvs. all information i satsen var ny. I smalfokus får den låga T3 en ännu lägre dipp, vilket också kan ses som bevis för att T3 verkligen är låg. Övriga toner får förhöjd grundtonsfrekvens, vilket visar på att T3 står ut. I den deklarativa satsen får det sista ordet sänkt tonhöjd och F-omfånget är bredare i slutet av satsen än i början. Det stämmer väl överens med resultaten från satsen Wo ye xiang mai shuiguo som bara innehöll ord med T3; guo, det finala ordet, hade betydligt lägre tonhöjd än övriga ord i satsen, och betoningen hamnar oftast i slutet av en sats när satsen har bredfokus. I kontexten när ord med T3 står mellan ord med T5 har T5 en relativt hög tonhöjd, i informantens mellanregister, vilket kan analyseras på olika vis. Om man tar hänsyn till att de ord med T5 är grammatiska markörer som i sig själva är tonlösa, är deras tonala värde i tal beroende av omkringliggande toner. Således kan deras tonhöjd kopplas till föregående T3, som är låg i dessa kontexter, liksom i andra. När ett ord med T5 står efter ett ord med en annan ton än T3 är de inte lika höga, vilket skulle kunna vara ytterligare ett bevis på att man vill markera att ordet med T3 är låg genom att ge efterföljande ursprungligt tonlösa ord en hög tonhöjd. Synen på att en ton följs av en motsatt ton, dvs. en låg L följs av en hög H, liknar restriktionen om polaritet inom Optimalitetsteorin. En liknande syn kan man ha angående fenomenet tonsandhi: Ord med T3 står närliggande och i ett par realiseras den första som en T2. Genom att stiga i tonhöjd på den första tonen kan man markera att även den andra är låg, eftersom stigningen ger möjlighet att återigen gå ner i tonhöjd för den andra stavelsen, som realiseras som en vanlig T3, dvs. med låg F. Jämfört med T1 och T4 har T3 låg tonhöjd. Att T3 har ett initialt fall när den står inne i en sats, och kallas för halv tredjeton, skulle lika gärna kunna beskrivas av tonal
35 transition; de andra tonerna är högre och följs de av en T3 måste de ta sig ner till den låga tonhöjden, vilket i sammanhängande tal ger ordet med T3 ett initialt fall. Trots att man säger att tonhöjden är relativ producerar informanten, en ung kvinna med högre grundtonsfrekvens än exempelvis en gammal man, knarr. Det tyder på att knarret är en obligatorisk del av tonen. Kan den vara viktigare än den tonala konturen för att visa att T3 är låg? Eftersom den tonala konturen varierar mycket, medan knarret består i nästan alla kontexter, skulle det kunna vara fallet. På grund av T3s olika tonala realiseringar kan knarret behövas som en ledtråd för att markera att tonen egentligen är låg. Knarret är som sagt närvarande för de flesta T3, men också för ett ord med T4: you. Att you har knarr i slutet av Wo de ma de pengyou kan förklaras av satsfinala gränsmarkeringar. Deklarativa satser sänker den finala grundtonsfrekvensen, till skillnad från interrogativa satser, som förhöjer den finala tonhöjden. Knarrets position i rimkonstituenten varierar. När ma står isolerat är det bara knarr i en version av fyra. Då förekommer knarret ungefär i mitten av stavelserimmet. När ordet ma däremot står inne i en sats, mellan två ord med T5, förekommer knarr i alla versioner, under andra halvan av rimmet. När ordet wo står isolerat förekommer knarret i alla versioner, ungefär i mitten av stavelsen. Den exakta positionen varierar, men vad som är konsekvent är att vokalkvalitén förändras efter knarret från ett o till ett a. För den isolerade formen av bai förekommer knarr också ungefär i mitten av stavelsen, men dess position varierar något. I alla övriga kontexter förekommer knarret på ord med T3 under hela rimmet eller i slutet av rimmet. Om knarret kan kopplas till det andra segmentet av tre möjliga, skulle det förklara varför positionen av knarret varierar från att befinna sig någorlunda i mitten av stavelsen till att vara stavelsefinal beroende på om ordet står isolerat kontra inne i en sats. Att ma i isolerad kontext inte tenderar ha knarr kan vara ett undantag som inte betyder någonting, eftersom det är svårt att generalisera bara en informants tal. En tanke är dock att det skulle kunna ha med diftonger att göra, eller rättare sagt bristen av dem. I segmenten bai och wo finns tydliga diftoner, som skulle ha varit triftonger om inte knarret avgränsade mellan dem. Ma är inte ens en diftong, och skulle således inte behöva
36 brytas upp i flera delar med hjälp av knarr, medan det är möjligt att triftonger behöver det. Det är rimligt att anta att liksom Duanmu anse att den tonbärande enheten är moran. Att den tonala konturen skulle realiseras redan på stavelseansatsen är inte troligt, då ansatsens akustiska mönster är oregelbundet (Duanmu ). Därför återstår rimmet som kandidat. Rimmen varierar i längd och en längre stavelse kan bära fler toner än en kortare. Därför verkar duration av segment avgörande för tonal realisering. Då moror är en tidsenhet verkar det vettigt att hänvisa till morastrukturen för att förklara tonassociationsmönster i mandarin. Eftersom T3 är längre, dvs. tyngre, än de andra tonerna är det inte konstigt om den i final position har tre tonbärande enheter, dvs. tre moror. I fonologi eftersträvar man jämvikt. Det betyder att man söker tillskriva ett språk fonologiska egenskaper som kontrasterar varandra och som helhet spänner över möjliga ljud, i det här fallet ton. Finns det en hög ton, H, tenderar det finnas även en låg ton, L. Mandarin har två konturtoner som är varandras motsatser. Därför skulle det då också finnas två nivåtoner (hög och låg ton) som kontrasterar varandra. Liksom man utnyttjar vokalrymden för att i ett språks fonemuppsättning ha kontrasterade ljud, borde de fonologiska underliggande formerna av toner vara kontrasterande och utnyttja de givna möjligheterna. 6.1 Reflektioner Det finns vissa aspekter på uppsatsen som rör vad som kunde ha gjorts annorlunda, dels angående metod och analys, men främst angående material. Det viktigaste att ta upp är att fler än en informant skulle kunna ha spelats in, för ett resultat som man lättare kan generalisera av. Som tidigare nämnt är dock tonhöjden hos tonerna relativ eftersom de skiljer sig från person till person. Därför hade det krävts mycket av författaren att samla in och sammanställa och värdera resultat från ett flertal informanter. Den andra aspekten gäller antalet och valet av kontexter. Ord med T2 saknades helt i materialet, vilket måste anses som en brist. Det skulle vara intressant att ha med ord med T2 dels för att T2 och T3 anses vara förbryllande lika, dels för att se hur ord med T3 realiseras närliggande ett ord med T2. Skulle ett ord med T3 komma efter ett ord med