h Institutionen för klinisk vetenskap, intervention och teknik Logopedprogrammet, kurs 26 Huvudämne Logopedi Examensarbete D-nivå, 2 poäng Vårterminen 27 Stämbandens förfonatoriska vibrationscykler vid tre typer av fonationsansats en explorativ studie Författare: Maria Sjöberg Handledare: Prof. Johan Sundberg, KTH Bihandledare: Docent Per-Åke Lindestad, Karolinska Universitetssjukhuset, Huddinge
Institutionen för klinisk vetenskap, intervention och teknik Logopedprogrammet, kurs 26 Huvudämne Logopedi Examensarbete D-nivå, 2 poäng Vårterminen 27 Stämbandens förfonatoriska vibrationscykler vid tre typer av fonationsansats en explorativ studie Sammanfattning Denna explorativa studie syftade till att undersöka olika tonansatsers respektive egenskaper hos skolade och oskolade sångare. Fokus för studien låg på stämbandens vibrationscykler från den initiala svängningen till de första kollisionerna samt de akustiska korrelat som uppstår vid stämbandskollision. Följande fenomen undersöktes: 1)Hur många prekollisionära stämbandsvibrationscykler förekommer vid olika typer av ansats? 2)Hur många perioder går det mellan första stämbandskollision och första synliga övertonsgenerering i audiosignalen? 3)Hur ser intonationen ut för de första stämbandskollisionerna i förhållande till hela tonens medelvärde, samt hela tonens medelvärde i förhållande till målvärdet? 4)Hur ser taktslagsanpassningen ut mellan första stämbandskollision, övertonsgenerering och metronomslag? Försökspersonerna utgjordes av tre skolade och tre oskolade sångare. Stämbanden filmades med höghastighetskamera via fiberoptisk kabel. Fonationsmaterialet bestod av en treklang som sjöngs med tre olika typer av ansats; staccato på vokalen /i/, tonlös aspirerad samt oaspirerad bilabial klusil följt av vokalen /i/. Resultaten visade att det förekom prekollisionära stämbandssvängningar och att antalet varierade beroende på individ och ansatstyp. Det kunde konstateras att övertoner/rippel i audiosignalen inte nödvändigtvis genererades vid andra stämbandsslutningen. Det fanns dock en tendens att de tre skolade sångarna så gott som alltid genererade rippel relativt tidigt i tonansatsen. Det fanns dock tillfällen när inget rippel förekom alls. Detta var särskilt tydligt hos två av de oskolade sångarna. Tidpunkten för rippeldebut i förhållande till första stämbandskollision varierade också betydligt mer hos de oskolade sångarna. Den initiala intonationsprecisionen varierade. De skolade rösterna och en oskolad intonerade lågt i förhållande till hela tonens medelvärde vid staccato och aspirerad ansats medan de andra intonerade högt. Vid ansats med oaspirerad klusil tenderade i stort sett alla att intonera högt. Vid jämförelse mellan hela tonens medelvärde och angivet målvärde intonerade, med få undantag, samtliga försökspersoner lågt oavsett ansatstyp. Vad gäller synkronisering mellan röst och metronomslag kom stämbandskollisionen före metronomslaget för i stort sett alla sångarna oavsett ansatstyp. Även rippeldebuten kom oftast före metronomslaget men inte alltid. Denna studie visade att det trots det låga antalet försökspersoner gick att se tendens till skillnader beträffande antal prekollisionära svängningar och rippelförekomst mellan skolade och oskolade röster. Det finns därför skäl att undersöka ett större antal försökspersoner för att se om skillnaderna är signifikanta. Prephonatory vocal fold vibrations in three different phonation onsets an exploratory study Abstract The aim of this exploratory study was to investigate voice-onset characteristics of trained and non-trained singers. The focus of the study was to examine the pre-phonatory vocal fold vibrations along with the acoustical effect caused by the first vocal fold collision. The following phenomena were studied: 1) The number of pre-collisionary vocal fold cycles generated with various types of vocal articulations; 2) the number of cycles between the first vocal fold collision and the first visible partials in the audio signal; 3) the intonation between the initial vocal fold collision and the mean fundamental frequency of the whole tone; also, the comparative intonation between the mean fundamental frequency of the whole tone and the target frequency; 4) the synchrony between the first vocal fold collision, the generation of partials, and the isochronic signal (i.e. metronome click). The subjects of the study were three trained and three nontrained singers. The vocal folds were filmed using high-speed imaging through a fiber-optic cable. The phonation material consisted of a triad, sung with three different kinds of articulation (onset); staccato on the vowel /i/, and voiceless, aspirated or non-aspirated, bilabial plosive followed by the vowel /i/. The results showed that the number of pre-collisionary cycles differed among the individual subjects and varied with each articulation type. It was also established that the second vocal fold collision rarely generated partials in the audio signal. However, we did observe a tendency for the three trained singers to generate periodic overtone patterns early in the tone. Furthermore, there was occasionally a total lack of overtone generation throughout the whole tone. This was particularly noticeable with two of the non-trained subjects. The point of generation of regular overtone patterns varied widely among the three nontrained singers. The precision of the intonation at the onset varied among the subjects. On the staccato and aspirated articulations, all of the trained singers and one non-trained singer tuned flat on the initial collisions in comparison to the mean frequency of the whole tone. The other subjects tuned sharp in these cases. There was a general tendency among all the subjects to tune sharp on the non-aspirated articulation. When comparing the fundamental mean frequency with the target frequency, the study showed that almost all of the subjects tuned flat regardless of articulation. It was further shown that with all singers, in every articulation the first vocal fold collision occurred before the isochronic beat. Also the periodic overtone pattern occurred in most cases prior to isochronic beat. This study showed that despite the limited number of test subjects, it is possible to ascertain measurable differences, particularly in pre-phonatory vibration cycles and overtone generation between trained and non-trained singers. These findings demonstrate the need to examine a larger number of subjects to better judge the significance of these differences. ii
Innehållsförteckning 1 INLEDNING... 1 1.1 BAKGRUND... 1 1.1.1 Förfonatoriska stadiet... 1 1.1.2 Prekollisionära vibrationscykler... 1 1.1.3 Larynxmuskulatur vilje-och reflexstyrd kontroll... 2 1.1.4 Ansatstyper... 2 1.1.5 Grundtonsamplitud, övertonsgenerering och rippel... 3 1.1.6 Intonationsprecision vid sång... 4 1.1.7 Sång och taktslag... 4 1.1.8 Välkontrollerad ansats... 5 1.2 SYFTE OCH FRÅGESTÄLLNINGAR... 5 2 METOD OCH MATERIAL... 5 2.1.1 Försökspersoner urvalskriterier... 6 2.1.2 Inspelningsapparatur... 6 2.1.3 Fonationsmaterial... 7 2.1.4 Inspelningstillfället... 7 2.2 ANALYSPROGRAM... 7 2.2.1 High-SpeedToolBox... 8 2.2.2 Soundswell... 8 2.2.3 Bortfall... 8 2.3 ANALYS... 9 2.3.1 Prekollisionära vibrationscykler... 9 2.3.2 Övertoner och rippel... 9 2.3.3 Intonation... 1 2.3.4 Taktslagssynkroni... 12 2.4 STATISTISK ANALYS... 12 2.5 FORSKNINGSETISKA ÖVERVÄGANDEN... 13 3 RESULTAT... 13 3.1 Stämbandens prekollisionära vibrationscykler... 13 3.2 Akustiskt korrelat - rippel... 16 3.3 Intonation frekvensavvikelser från målvärden... 19 3.4 Takt synkroni mellan röst och metronomslag... 21 4 DISKUSSION... 22 4.1Val av filmningsmetod... 22 4.2 Val av statistisk analys... 23 4.3 Prekollisionära vibrationscykler... 23 4.4 Synkronisering video - audio... 24 4.5 Rippel... 25 4.6 Intonation... 26 4.7 Sång och taktslag... 27 5 SLUTSATSER... 27 REFERENSER... 29 TACK... 29 iii
1 Inledning Att sjunga ställer stora krav på den fonatoriska kontrollen. Detta gäller vid de flesta sånggenrer men kanske i synnerhet vid västerländsk operasång. Notbilden fodrar ofta en närmast virtuos kontroll över andnings- och larynxmuskulaturen i samspel med artikulatoriska strukturer. En sk. klassiskt skolad röst besitter dessutom särpräglade akustiska egenskaper vilket också borde kunna tillskrivas den fonatoriska justeringsförmågan. Många studier har gjorts där man undersöker sångares stämbandsvibrationer vid fonation men det förfonatoriska stadiet fram till de första stämbandskollisionerna är ännu så länge relativt outforskat. Detta är ett särdeles intressant stadium eftersom just dessa första stämbandsvibrationer borde vara de som ligger till grund för en god ljudgenerering. 1.1 Bakgrund I en studie av Kunduk, Yan, McWorther och Bless från 26 undersökte man det förfonatoriska stadiet med höghastighetskamera i syfte att utveckla en metod för att objektivt kunna analysera perioden före fonation. Den aktuella perioden karaktäriseras som voice initiation period, förkortat VIP. Denna definition ska inte förväxlas med VOT, voice onset time, som ju också markerar en fonationsstart, men i relation till klusil efter explosionsfasen. VIP syftar således på stämbandens rörelser precis innan de kolliderar. I studeien av Kunduk et al (26) undersöktes VIP vid tal och antal försökspersoner var begränsat till två, en äldre och en yngre. Man jämförde försökspersonernas respektive VIP med utgångspunkt från deras ålder. Vid sång borde VIP motsvaras av termen ansats. Ansatsen har sitt ursprung i det förfonatoriska stadiet och genereras genom en väl avvägd samordning fonationsmuskulaturerna emellan (Sundberg, 21). 1.1.1 Förfonatoriska stadiet Under viloandning är stämbanden abducerade och luften flödar fritt genom glottis. Vid fonation adduceras de och strax därefter, ca 5 till 1 msek. höjs det subglottiska trycket. Detta kan ske med variation. Exempelvis kan vokalen föregås av ett /h/ där det subglottiska trycket höjts innan stämbanden adducerar, vilket resulterar i en sk läckande ansats. Motsatsen skulle vara den ansats där stämbanden är väl adducerade innan trycket ökar varvid man får en sk hård ansats eller glottisstöt (Sundberg, 21). I en studie av Cooke, Ludlow, Hallet och Selbie (1997) undersökte man VIP för olika typer av fonationsansats i tal: läckande, normal och hård hos både män och kvinnor. De jämförde processus vocalis relativa rörelser och hastighet vid fonationsstart samt mätte tidsintervallet mellan stämbandens adduktion och vibrationsstart. De rapporterade att broskens adduktionsgest och maximala hastighet inte skiljde sig beroende på fonationstyp. Däremot fanns det en signifikant skillnad i tidsintervallet mellan stämbandens adduktion och vibrationsstart. Vid hård ansats var tiden mellan de båda företeelserna som längst. Stämbanden var adducerade innan vibrationerna startade. Vid läckig ansats var det knappt någon tidslatens alls och ibland föregick vibrationsstarten själva adduktionen. 1.1.2 Prekollisionära vibrationscykler Om det subglottiska trycket höjts innan stämbanden adducerats får det till följd att stämbanden börjar vibrera i abducerat läge. Dessa vibrationscykler kommer i fortsättningen att kallas 1
prekollisionära svängningar eller prekollisionära vibrationscykler vilket är en term som myntats för denna studie. 1.1.3 Larynxmuskulatur vilje-och reflexstyrd kontroll Muskelstyrning och subglottiskt tryck måste samvariera i enlighet med att fonationsfrekvens och röststyrka ändras. Detta kontrolleras med andningsmuskulatur samt två larynxsystem, det viljestyrda och det reflexstyrda (Wyke, 1974). Den viljestyrda kontrollen av larynxmuskulaturen används före fonation. Den kan beskrivas som en förfonatorisk aktivitet vilken har till uppgift att styra adduktion- och abduktionsmusklernas respektive aktivering och inhibering. Även ökningen av det subglottiska trycket bestäms ifrån det viljestyrda kontrollsystemet såväl som stämbandens relativa inställning beroende på frekvens och styrka (Wyke, 1974). När fonationen väl är igång ställs stora krav på att snabbt kunna förändra stämbandens massa, spänning och längd i kombination med variation i det subglottiska trycket. Detta sköts av ett reflexstyrt system som via sk mekanoreceptorer känner av förändringar i tryck och spänning. Dessa mekanoreceptorer är aktiva på tre olika ställen i larynx: i larynxmuskulaturen, där de känner av förändring av spänningsgrad, i den subglottiska stämbandsslemhinnan där de registrerar subglottiska tryckvariationer, samt i lederna mellan cricoid- thyroid- och arytenoidbrosken där de registrerar broskens inbördes positionering. Tillsammans skickar de information till hjärnan som i sin tur genom nya order parerar för de ändrade förhållanden receptorerna registrerat. Allt detta sker omedvetet i samspel med det viljestyrda kontrollsystemet (Wyke, 1974). 1.1.4 Ansatstyper Olika typer av ansats påverkar förutsättningarna för fonationsstarten. Staccato kan beskrivas som en intermittent avbruten fonation. Vid staccatosång öppnas glottis under de tonlösa intervallen mellan tonerna. Om det subglottiska trycket låg över noll vid denna tidpunkt skulle luften strömma ut genom glottisöppningen och generera ett /h/-liknande brus. För att förhindra detta måste det subglottiska trycket snabbt sänkas till noll mellan varje ton i en staccato-tonserie. Svårigheten med att sjunga staccato blir då att inte lägga till ett /h/ före vokalen samtidigt som ansatsen inte får bli hård, vilket är risken om stämbanden adduceras och trycket byggs upp för högt. Eftersom en treklang består av toner med olika tonhöjd ställs det ytterligare krav på en flexibel styrning av det subglottiska trycket. En högre ton kräver ett högre subglottiskt tryck och en lägre ton ett lägre tryck. Detta innebär att det subglottiska trycket inte bara ska sjunka till noll mellan tonerna utan dessutom snabbt och med precision direkt därpå anpassas för efterföljande ton. Skulle detta inte ske riskerar man att sjunga orent eller rentav träffa fel ton då tidsmarginalerna är mycket små och det knappast finns utrymme för korrigering innan sångaren ska vidare mot nästa ton (Sundberg, 21). Om man dessutom före vokalen lägger till en tonlös klusil får man ytterligare en aspekt att ta hänsyn till. Vid tonlös klusil stiger trycket i munhålan kraftigt under ocklusionsfasen för att sedan hastigt sjunka när läpparna öppnas. I det ögonblick ocklusionsfasen upphör, sjunker det subglottiska trycket tillfälligt. Detta orsakar en störning av det subglottiska trycket som det ska korrigeras för inom ramen för stämbandens adduktionsgest och styrningen av lufttrycket från lungorna. Fonemet /p/ är en tonlös klusil som i olika språk har lite olika karaktäristika. I svenska språket följs explosionsfasen av en aspiration medan det i exempelvis italienska inte är någon 2
aspiration efter att klusilens ocklusionsfas upphört. För stämbandens del innebär det att de i svenskan hålls abducerade en lite längre stund efter klusilens explosion för att sedan sammanföras för den efterföljande vokalen. Vid ett oaspirerat /p/ däremot adduceras stämbanden direkt efter att ocklusionsfasen upphört. Det finns alltså en tidsskillnad för stämbandens adduktionsgest och vibrationsstart beroende på om klusilen är aspirerad eller oaspirerad (Sundberg, 21). I en studie av McCrea och Morris (25), undersökte man hur Voice Onset Time, VOT, påverkas av röstträning. Man använde sig av 3 manliga försökspersoner indelade i två grupper, de med röstskolning och de utan. Båda grupperna fick tala och sjunga bärfraser innehållande engelska tonande och tonlösa bilabiala klusiler varefter man mätte VOT för dessa. Resultatet visade en signifikant skillnad mellan talat och sjunget material, oavsett om klusilen var tonande eller tonlös. För /p/ var VOT betydligt längre vid tal än vid sång och för /b/ tvärtom, dvs. VOT var längre vid sång än vid tal. Det fanns inga signifikanta skillnader mellan skolade och oskolade röster beträffande ovanstående. Däremot observerades en skillnad för de skolade rösterna vid /p/. De hade längre VOT än de oskolade vid tal och betydligt kortare VOT än de oskolade vid sång. Slutsatsen var alltså att fonationssättet, tal eller sång, påverkar VOT och att detta var mest tydligt hos sångarna på grund av de artikulatoriska och fonatoriska justeringar som tränas under röstskolning. 1.1.5 Grundtonsamplitud, övertonsgenerering och rippel Ljudnivån hos en vokal bestäms till största delen av stämbandens slutningshastighet vid kollisionen. Detta undersökte Gauffin och Sundberg i en studie från 1989. De kunde konstatera att olika fonationstyper, läckande, pressat eller normalt genererar olika grundtonsamplituder. Så mycket som 15 db kan skilja grundtonens amplitud vid pressad respektive läckande fonation. Grundtonsamplituden i sin tur kommer att påverka övertonernas styrka i det att de högre deltonerna förstärks i förhållande till de lägre vid ökad grundtonsamplitud. Stämbandens slutningshastighet ligger alltså bakom såväl grundtons- som övertonsamplituder. I en musikmiljö där sångaren ska överrösta en orkester är följaktligen slutningshastigheten av stor betydelse om sångaren överhuvudtaget ska höras (Gauffin & Sundberg, 1989). Starka övertoner i en röst genererar ett mönster i audiosignalens vågform. Detta kallas rippel, se figur 1. Ripplet speglar hur ljudtrycket oscillerar mellan ett högre och ett lägre värde. Oscillationerna uppkommer genom övertonernas upprepade tur-och returresa mellan glottis och läppöppning eller annan reflektionspunkt. Studsandet är en följd av ljudreflektion i ansatsröret och ljudreflektionen är i sin tur beroende av reflektionsytorna. Förluster i ljudreflektionen kan således orsakas av exempelvis ofullständig glottisslutning, ansatsrörets utformning och/eller eventuell nasalering. Höggradig reflektion, som uppkommer vid små förluster av ljud ger stor rippelamplitud, medan stora förluster ger mindre rippelamplitud. Andra faktorer som påverkar rippelamplituden är röststyrka och formantfrekvenser (Sundberg, 21). Figur 1. Den akustiska signalen för en röst. Cirkeln visar hur första ripplet i audiosignalen ser ut. 3
1.1.6 Intonationsprecision vid sång Intonation vid sång är beroende av flera olika mekanismer. Vid en välfungerande tonhöjdskontroll agerar tidigare nämnda larynxkontrollsystem i samspel med auditiv och kinestetisk återkoppling (Mürbe, Pabst, Hofmann, Sundberg, 22). Ytterligare en mekanism, den förfonatoriska avstämningen, är en följd av motorisk planering och programmering av larynx- och andningsmuskulatur. Den inträffar under de millisekunder i början av fonationen då varken extern eller intern återkoppling har påbörjats (Watts, Murphy och Barnes-Burrough, 22). Denna avstämningsförmåga kan tränas upp så att den motoriska planeringen och programmeringen går snabbt och precist. Som regel är självavlyssningsförmågan viktigast vid inlärning, det gäller både tal och sång, men den har även visat sig ha betydelse när fonationsuppgifterna varit av mer krävande slag. Vid störd självavlyssning måste intonationen styras med hjälp av kinestetisk återkoppling vilket ställer höga krav på det man kallar muskelminne (Sundberg, 21). Förmågan att sjunga rent utan att höra sig själv har varit föremål för flera studier. I en studie av Mürbe et al (22) undersökte man betydelsen av auditiv och kinestetisk feedback för sångares intonationskontroll. Man konstaterade att intonationen försämrades utan auditiv feedback, dvs. då sångarna enbart kunde använda sig av kinestetisk återkoppling. Med enbart kinestetisk feedback varierade resultatet signifikant beroende på sånguppgift. Ju snabbare sång desto sämre medelintonation vilket också var fallet vid staccatosång jämfört med legato. En slutsats var att den kinestetiska feedbackens intonationspåverkan kan förbättras med träning. Skolade röster kan alltså bättre kontrollera det receptorstyrda systemet för att styra fonationsfrekvensen vid de tillfällen de inte har möjlighet att höra sig själva. Murry (199) undersökte den förfonatoriska avstämningen hos sångare och icke-sångare. Försökspersonerna fick sjunga till angivna tonhöjder varefter man utifrån audiosignalen mätte grundtonsfrekvensvärdet för den allra första synliga periodiska vågformen samt medelvärdet av de fem första vågformerna, i förhållande till det angivna målvärdet. Resultatet indikerade att sångarna var mer precisa i intonationen i relation till målvärdet än icke-sångarna. Men röstskolning är inte en förutsättning för god intonation enligt Watts, Murphy och Barnes- Burrough (22). De gjorde i sin studie ytterligare en klassifikation: sångtalang. Man undersökte alltså intonationsförmågan hos oskolade röster med, respektive utan sångtalang samt skolade röster. Där kom man fram till att skolade sångare och oskolade sångare med sångtalang inte skiljde sig nämnvärt i intonation medan oskolade försökspersoner utan sångtalang skiljde sig avsevärt från de båda andra grupperna. 1.1.7 Sång och taktslag I en studie av Sundberg och Bauer-Hauptman (26) undersökte man den sjungna tonens start i förhållande till stavelse och ackompanjemang. I studien analyserade man tidsintervallen mellan vokalansats och pianoackompanjemang hos ett antal professionella sångare. Materialet utgjordes av tyska romanser från kommersiella CD med välrenommerade sångare. Resultatet visade att pianoackompanjemanget var synkroniserat med sångarens ansats av vokal och inte den konsonant som själva stavelsen började med. Det betyder att en sångare måste se till att tonansatsen samordnas med slaget i takten oavsett om vokalen föregås av en eller flera konsonanter i stavelsen. Det finns alltså en temporal aspekt vad gäller tonansatsen som är beroende av yttre faktorer som ackompanjemang och takt. 4
1.1.8 Välkontrollerad ansats En sångares ansats är alltså beroende av flera faktorer. Det subglottiska trycket ska synkroniseras med stämbandens adduktion och spänningsgrad för att producera rätt frekvens. Stämbandens slutningshastighet ska vara så snabb och distinkt som möjligt för att generera bra grund- och övertonsamplituder. Det innebär att adduktionen inte får vara pressad och inte heller för läckande. Dessutom ska ansatsen, slutningen av stämbanden, synkroniseras med yttre faktorer som taktslag och ackompanjemang samt intoneras i enlighet med notbilden. 1.2 Syfte och frågeställningar Denna explorativa studie syftade till att undersöka tonansatsens egenskaper vid olika typer av ansats. Både skolade och oskolade sångares ansatser studerades. Fokus för studien låg på stämbandens vibrationscykler från det att de börjar svänga till de första kollisionerna samt de akustiska korrelat som uppstår vid stämbandskollision. Frågeställningar: Prekollisionära vibrationscykler Hur många prekollisionära stämbandsvibrationscykler förekommer vid olika typer av ansats? Akustisk effekt av stämbandsslutning Kan man i audiobilden se en riklig förekomst av övertoner, rippel, vid stämbandens andra vibrationscykel? Om så inte är fallet, hur många vibrationscykler finns det mellan tidpunkten för kollisionsdebut och rippel? Intonation Hur ser intonationen ut under de allra första stämbandskollisionerna jämfört med medelvärdesfrekvensen för hela tonen samt hela tonens medelvärdesfrekvens i relation till angiven målton? Synkroni mellan röst och taktslag När sångarna sjunger till ett angivet tempo vad är då tidsavståndet mellan synkpulsen, metronomslaget, och första stämbandskollisionen? Hur ser den temporala aspekten ut i jämförelse mellan metronomens taktangivelse och rippeldebuten. Finns det någon skillnad beträffande ovanstående observationer mellan skolade röster och oskolade? Då synkroniseringen mellan subglottiskt tryck och larynxmuskulatur är väl upptränad borde det få effekter på stämbandens prekollisionära svängningar, övertonsgenerering samt taktslagsanpassning och precision vad gäller initialfrekvens och den frekvens som stämbanden gemensamt upprätthåller längre in i förloppet. 2 Metod och material Metoden var att filma stämbandens svängningar vid olika typer av fonationsansats. Försökspersonerna utgjordes av sex manliga försökspersoner i åldrarna 22-34, varav tre var professionella sångare i barytonfacket, och tre utan formell röstskolning. Försökspersonernas initiala stämbandsvängningar analyserades utifrån tre olika ansatsbetingelser som spelades in. 5
2.1.1 Försökspersoner urvalskriterier Höghastighetskameran filmar med ca 194 bilder per sekund varmed en bild varar ca,5 millisekunder. Detta innebär att det för en lågfrekvent ton tas fler bilder per vibrationscykel och det motsatta, ju högre frekvens på tonen desto färre bilder per vibrationscykel. Genom att välja låga frekvenser med färre stämbandssvängningar optimerades förutsättningarna för en god analys varför barytonröster var lämpliga röstlägen att filma. De professionella sångarna skulle ha studerat sång i minst sju år och ha en pågående karriär inom yrket. De tre försökspersonerna utan formell röstskolning fick inte ha bedrivit sångstudier för sångpedagog, däremot kunde de ha sångvana i form av körsång eller liknande. I samband med filmningstillfället utfördes även en enklare foniatrisk bedömning av samtliga försökspersoners faryngala och laryngala strukturer, varvid status konstaterades vara god. Då inföarndet av den fiberoptiska kablen kunde vara förenat med ett visst obehag, bedövades nässlemhinnan med Nafazolin-lidokain. 1 2.1.2 Inspelningsapparatur Figur 2 visar kopplingsschema för film- och audioinspelningen. Nasofiberskopi utfördes med nasofiberoptisk kabel. Ljuskällan utgjordes av en Wolf, Xenon 3 W med halogenlampa. Den fiberoptiska kabeln kopplades till kameran genom en Olympus AR-L2C-adapter. Kameran var en Weinberger speedcam+ och bestod av kamerahuvud samt en specialpc. Bildupplösningen var 256X64 pixlar vilket ger den nämnda hastigheten av ca 194 bildrutor/sek. Data sparades i digital form på PC. Datorns minne tillåter lagring av upp till 8 bilder per fil. Ljudet spelades in med hjälp av en mikrofon, Audio Technica ATM31, Japan, 7 till 1 cm avstånd från munnen tillsammans med metronomslaget från en PC (Fujitsu Scentic) och en triggersignal från kameran. Triggersignalen användes för att synkronisera ljud och bild. Ljud, triggersignal samt metronomsignal spelade in med signalanalysprogrammet Soundswell. Metronomsignalen förmedlades dessutom till försökspersonerna via hörselsnäcka. Hörlurar Metronom Ljuskälla Försöksperson Nasofiberoptisk kabel Kamera PC med bildprocessor PC med analyssystem Mikrofon Förstärkare Figur 2. Kopplingsschema för inspelningsapparatur 1 Nafazolin-lidokain innehåller vanliga näsdroppar blandade med lokalbedövningsmedlet Xylocain. 6
2.1.3 Fonationsmaterial Vid stämbandsfilmning är det av vikt att inte tungans bakre del kommer i vägen och skymmer sikten. Fonationsmaterialet baserades därför på den slutna vokalen /i/ där tungan naturligt ligger framåt i munhålan. Inga artikulatoriska strukturer störde på så sätt bilden. Det sjungna materialet bestod av en durtreklang med start från tonen (13,2 Hz). 2 Treklangen sjöngs nerifrån och upp och ner igen varvid den omfattade sju toner, se figur 3. Figur 3. Notexempel för fonationsmaterialet Följande ansatsbetingelser spelades in: - Staccato på /i/- tonserien sjöngs med vad man skulle kunna kalla västerländsk staccatoteknik. korta distinkta toner på vokal, vilket i sig förutsätter väl avvägt samarbete mellan andningsapparat och larynxmuskulatur. - Tonlös bilabial aspirerad klusil följt av /i/ - tonserien sjöngs på [p h i]. - Tonlös bilabial oaspirerad klusil följt av /i/ - tonserien sjöngs som [pi]. 2.1.4 Inspelningstillfället Vid inspelningstillfället fick försökspersonerna själva ansvara för uppvärmning av rösten. De blev instruerade att sjunga korta distinkta staccato-toner samt skilja mellan aspirerad och oaspirerad klusil. Oaspirerad klusil beskrevs som ett finskt eller italienskt /p/. De fick provsjunga de olika ansatstyperna och pröva sig fram tills inspelningsteamet godkänt respektive ansatstyp Försökspersonerna sjöng respektive tonserier som trioler i takt med metronomslag, 67 slag/min, från ett inspelat spår där även tonarten angavs före start. Tempot angavs via hörlurar och spelades in simultant med rösten. Då det kunde vara svårt att få en optimal bild av larynx krävdes flera sångförsök efter varandra. Försökspersonerna ombads sjunga tonserien/treklangen upprepade gånger i följd tills optimal bild erhölls. Programvaran kunde spara ca 4 sekunders film i taget varför varje filmfil innehöll drygt två treklangsserier vardera. Av dessa analyserades de sista sju tonerna, alltså den serie närmast triggersignalen som synkroniserade video och audio. Det totala tonmaterialet att analysera uppgick före bortfall till sju toner x tre ansatsbetingelser x sex försökpersoner, sammanlagt etthundratjugosex toner. Vid inspelningstillfället gjordes även en kalibreringsfil för varje försöksperson. Ljudnivån mättes med db-mätare och mikronfonavståndet angavs för respektive sångare. 2.2 Analysprogram För analys av det inspelade filmmaterialet användes programvaran High-SpeedToolBox (H. Larsson), version 3, samt signalanalysprogrammet Soundswell (Hitech Development AB, Stockholm, Sweden). Båda programmet kördes på en Celeron 2. med 24 MB RAM. 2 Tonhöjdsbenämningssystemet är ett system där varje oktav, med början på C, numreras nerifrån och upp. Längst ner i pianoklaviaturen finns således oktav noll, vilken följs av oktav ett, två, tre osv (Sundberg, 21) 7
2.2.1 High-SpeedToolBox HSPToolBox är ett program för analys av höghastighetsfilm. Programmet möjliggör automatisk analys av stämbandens vibrationsmönster. Systemet opererar med flera simultant öppna fönster. Videobilden visas i ett fönster och kommandopanelen öppnas i ett annat. Panelen tillåter justering av hastighet, ljusstyrka, bildrutsnummer, fram- och bakspolning samt olika val av analysverktyg. Programmet tillhandahåller två typer av bildanalys, stämbandskantsmarkering bild för bild och kymografi. (Larsson, Hertegård, Lindestad, Hammarberg, (2). Då bildupplösningen vid nasofiberskopi inte är tillräcklig för en stämbandskantsanalys användes i denna studie främst kymografi. Kymogram tas över en vald tidsperiod. En linje markeras över stämbanden varefter ett nytt fönster visar hur stämbandens svängningar ser ut för den valda punkten över tid, se figur 3. En markör visar den aktuella bildrutan, i fortsättningen kallad frame, som markerats och denna markör kan även samköras med ett Swellfönster där audiosignalen visas. På så sätt får man en tydlig bild av stämbandens respektive öppning- och slutningsmönster i relation till audiosignalen. För bästa resultat bör linjen som markerar kymogramet dras horisontellt i bilden då bildupplösningen annars kan bli randig (Larsson et al, 2). 2.2.2 Soundswell Soundswell är en uppsättning program och verktyg för signalbehandlig. Programmet möjliggör redigering, analys och dokumentation av röstinspelningar. Den kan även synkroniseras med annan programvara, i denna studie HSPToolBox. 2.2.3 Bortfall Bortfall förekom för det inspelade materialet. Det kunde bero på att stämbanden skymdes eller att vibrationsmönstret hos stämbanden var oregelbundet. Materialet kunde även vara oanalyserbart pga. tekniska orsaker. Vid ett tillfälle, i slutet på en tonserie, övergick en försöksperson till legato, dvs. band ihop näst sista och sista tonen. Den sista tonen föll därför bort ur analysmaterialet. Bortfallsfördelningen redovisas nedan i tabell 1. Tabell 1. Tabell över bortfall Orsak Antal toner stämbanden skymdes av epiglottis eller andra strukturer 5 tekniska problem uppstod vid filmning eller sparande av filer 8 asymmetriskt vibrationsmönster hos stämbanden 1 ansatsfel 1 Summa totala bortfall 18 Toner kvar att analysera 18 Bortfall inom analysmaterialet förekom också, sk. partiellt bortfall, då vissa delanalyser inte var möjliga att göra. För två försökspersoner föll en respektive två toner bort vid analys av prekollisionära svängningar. Det var omöjligt att bedöma första stämbandsvibration vilket förklaras närmare i diskussionen. Vid en ansats för en försöksperson saknades metronomslaget i audiofilen varmed dessa sju toner inte gick att analysera beträffande taktanpassning. För ett flertal toner hos oskolad2 och oskolad3 genererades inte tillräckligt med övertoner varför ingen rippeldebut för dessa kunde observeras i audiosignalen. Övriga analyser gick att genomföra. I 8
bilaga 1 till 6 framgår med större exakthet de totala och partiella bortfallen för samtliga försökspersoner. 2.3 Analys 2.3.1 Prekollisionära vibrationscykler Videofilmerna öppnades i HSPToolBox. Varje fil kalibrerades efter mikrofonavstånd eftersom detta varierat mellan försökspersonerna. En markering drogs horisontellt över stämbandens mitt. Utifrån denna markering öppnades ett kymogramfönster där stämbandens vibrationscykler över tid kunde visas, se figur 4. Den första synliga stämbandssvängningen, dvs. en tydlig periodisk rörelse när stämbanden närmade sig varandra, markerades och framenumret noterades. Därefter markerades första kollisionen mellan stämbanden och angavs även denna i framenummer. Detta gjordes för varje ton i varje tonserie och samtliga värden fördes in i Excel, se bilaga 1. Bild 1 Bild 2 Figur 4. Bilder från videofilmen med motsvarande kymogramfönster. Markören i bildfönstret i vänstra hörnet visar var själva stämbandsmassan registrerats för kymogramet. Den heldragna linjen i kymogramet visar motsvarande mätpunkt i stämbandsvibrationerna. I panelfönstrets högra hörn anges framenummer för nämnda stämbandsvibration. Bild 1 visar första synliga stämbandsvibration och bild 2 första stämbandskollision. 2.3.2 Övertoner och rippel Rippel Den visuella bilden av audiosignalen jämfördes med videobilden av stämbanden för att fastställa första stämbandskollision i audio, se figur 5. Den första kollisionen i kymogrammet markerades i synkroni med Swellfönstret. I ett uppförstorat Swellfönster kunde sedan tiden och antalet vibrationscykler mellan första kollisionens vibrationscykel och första rippelgenererande cykel mätas. Tidpunkterna angavs i sekunder. Samtliga mätvärden fördes in i Excel-ark, se bilaga 1. 9
Figur 5. Bildfönster med motsvarande kymogramfönster och Swellfönster. Den heldragna markören visar var första stämbandskollisionen inträffar och den streckade linjen var det första ripplet kommer. Pilen indikerar avståndet, dvs. hela vibrationscykeln. Tidpunkten i sekunder anges i vänstra hörnet i den streckade ramen. Ekvivalenta ljudnivån (Leq) Eqvivalentnivån mättes över hela treklangen med hjälp av Histogrammodulen i Swell. Detta gav ett mått på hur starkt varje försöksperson sjöng. Eftersom mikrofonavståndet varierade mellan försökspersonerna korrigerades det erhållna värdet så att det kom att gälla för ett och samma mirkofonavstånd för alla försökspersoner. 2.3.3 Intonation F för initiala vibrationscykler (F1) Varje vibrationscykels början, mitt och slut markerades och tidpunkterna lästes av och fördes in i Excel. För varje enskild vibrationscykel beräknades sedan ögonblicksvärdet av F baserat på halva perioden. Uträkningen gjordes i Excel med följande formel: 1 F = 2(x 2 -x 1 ) Därefter beräknades medelvärdet av två halva perioder varvid ett medelfrekvensvärde för hela svängningen erhölls. Tre hela svängningar beräknades för varje ton. X 1 X 2 X 1 X 2 X 1 X 2 osv Figur 6. Bilden visar ett Swellfönster med de initiala perioderna i en ton. Den heldragna markören visar var första stämbandskollisionen inträffar och de streckade linjerna de olika mätpunkterna. Pilarna visar avståndet för halva periodtiden. I Swell-fönstrets vänstra hörn lästes tiden i sekunder av. X representerar tidsvärdet som sedan användes för att beräkna grundtonsfrekvensen. 1
F för varje ton (F2) F för varje ton mättes med hjälp av Corr-modulen i Swell Programmet tillhandahåller ett correlogram där ljudsignalen kan analyseras med Pearsons korrelationskoefficient. I correlogrammet tas den första kandidaten till F fram (Granqvist, Hammarberg, 23). F-kurvan markerades manuellt (figur 7) och analyserades därefter i programmet (figur 8). Medelvärdet och standardavvikelsen för F kunde sedan läsas av i histogram (figur 9). Även den inspelade tonserien som försökspersonerna fick höra i början av varje ansatsinspelning analyserades enligt ovanstående för att säkerställa den exakta tonhöjden för det förväntade målvärdet. Figur 7. Correlogramfönstret i Swell. De svarta skuggstrecken utgör de sju tonerna i en tonserie. Dessa är markerade manuellt i rött för att sedan extraheras för vidare analys. Figur 8. Swellfönster med sju toner i en tonserie. Den övre kanalen visar originalsignalen och den undre F- extraktionen från correlogrammet. 11
Mean 127 StDev 2.869 Mode 13 [%] 4 3 2 1 5 1 15 2 25 3 Figur 9. Histogram över första tonen i ovanstående serie. I vänstra hörnet anges medelvärde och standardavvikelse för hela tonens frekvensvärde i Hz. 2.3.4 Taktslagssynkroni Ljudfilen analyserades i Swell där röstsignalen visades i kanal och metronomsignalen, synkpulsen, i kanal 2, se figur 1. Sedan tidigare fanns tidpunkten för första stämbandskollision och första rippel angivet, så här mättes enbart tidpunkten för metronomslaget. För att vara säker på att metronomslaget mättes från samma punkt vid samtliga toner valdes metronomljudvågens negativa maxtopp i audiosignalen, då den var lätt att urskilja i samtliga ljudfiler. Tidpunkten för metronomslaget fördes in i Excel, se bilaga 1. Figur 1. Figuren visar ett Swell-fönster med de första vibrationscyklerna vid en ansats i staccato, kanal visar röstens ljudvåg och kanal 2 metronomslaget. Den heldragna markeringen visar mätpunkten för första stämbandskollision. Den streckade linjen visar rippeldebuten. Den prickade linjen visar mätpunkten för metronomslaget. N 1 visar avståndet mellan stämbandskollision och metronomslag medan n 2 visar avståndet mellan rippel och metronomslag. 2.4 Statistisk analys För varje försökspersons respektive ansatstyp beräknades medelvärde och standardavvikelse för: - antal prekollisionära vibrationscykler - antal vibrationscykler mellan stämbandskollision och rippeldebut 12
- de första tre stämbandskollisionerna grundtonsfrekvens Medelvärde beräknades för: - avståndet i msek mellan stämbandskollision och metronomslag - avståndet i msek mellan rippeldebut och metronomslag Medelvärde och standardavvikelse för grundtonsfrekvensen för hela toner beräknades med Pearsons korrelationskoefficient som tillhandahölls av Swellprogrammet. 2.5 Forskningsetiska överväganden Undersökningen var av invasivt slag och kunde innebära fysiskt obehag vilket försökspersonerna informerats om, se bilaga 7. De fick ta del av skriftlig information samt genom namnundertecknig ge sitt medgivande att materialet fick användas i denna studie. De informerades också om att de kunde avbryta sin medverkan i studien när som helst. Formulären för godkännande förvarades i låst utrymme på Karolinska Universitetssjukhuset, Huddinge. Studien låg inom ramen för forskningsetiskt godkännande av röstforskning med höghastighetskamera vid enheten för logopedi och foniatri, Karolinska Universitetssjukhuset, Huddinge, diarienummer 95:11. 3 Resultat 3.1 Stämbandens prekollisionära vibrationscykler För varje försöksperson beräknades medelvärde och standardavvikelse för antal prekollisionära vibrationscykler vid varje ansatstyp, se figur 11. Eftersom medelvärdet inte visar hur ofta ett antal vibrationscykler förekommer före stämbandskollision för varje ton synliggjordes även detta i diagram, indelat efter ansatstyp, figur 12-14. Resultatet visade att de skolade rösterna vid staccato hade färre antal prekollisionära vibrationscykler än de oskolade, se figur 11. Som regel hade de knappt någon vibrationscykel alls före stämbandskollision vilket även kan ses i figur 12. Där framgår det att det för skolad1vid fem av sex toner och skolad2 vid fyra av fem toner förekom inga prekollisionära svängningar. De oskolade rösterna hade större spridning inom gruppen men generellt kan man ändå konstatera att de oftare hade prekollisionära vibrationscykler vid staccatoansatsen än de skolade rösterna. Vid [p h i] skiljde sig oskolad2 från övriga sångare då han hade mycket lägre förekomst av prekollisionära vibrationscykler. Man kan även se att de skolade rösterna hade fler vibrationscykler före kollision än de oskolade, figur 11. Flest hade skolad2 som vid ett tillfälle hade upp till fyra prekollisionära perioder, figur13. I figur 12 kan man se att oskolad2 vid fem av sju toner inte hade någon prekollisionär svängning alls. Oskolad 1 och oskolad3 hade genomgående en vibrationscykel före stämbandskollision, figur 13. Vid oaspirerad ansats, [pi], skiljde sig inte försökspersonernas resultat nämnvärt från varandra. Som mest förekom en prekollisionär vibrationscykel före stämbandskollision för samtliga försökspersoner, figur 11. De förekom ungefär lika många stämbandskollisioner utan prekollisionär period som med, för både skolade och oskolade röster, figur 14. 13
Prekollisionära vibrationscykler - medelvärde 3, 2,5 medelvärde antal cykler 2, 1,5 1, skol1 skol2 skol3 oskol1 oskol2 oskol3,5, stacc phi pi ansatstyp Figur 11. Diagrammet visar medelvärden och standardavvikelse för antal prekollisionära vibrationscykler. De tre ansatstyperna visas och varje försökspersons medelvärde representeras av en stapel per ansatstyp. Skolad3 finns inte representerad vid staccatoansatsen då ljudfilen inte sparades korrekt. staccato 5 4 3 förekomst Skol1 2 Skol2 1 Oskol1 antal vibrationscykler före kollision 1 2 3 4 Skol1 Skol2 Oskol2 Oskol3 Oskol1 sångare Oskol2 Oskol3 1 2 3 4 Skol1 5 1 Skol2 4 1 Oskol1 3 4 Oskol2 5 Oskol3 1 3 Figur 12. Figuren och tabellen visar hur ofta ett visst antal prekollisionära svängningar (-4 stycken, se översta raden i tabellen) förekommer för varje försöksperson vid staccato-ansatsen. Skolad3 finns inte representerad vid denna ansatstyp då denna ljudfil inte sparades korrekt. 14
/phi/ 7 6 5 4 förekomst 3 2 Skol1 Skol2 Skol3 Oskol1 1 Oskol2 antal vibrationscykler före kollision 1 2 3 4 Skol1 Skol2 Skol3 Oskol1 Oskol2 Oskol3 sångare Oskol3 1 2 3 4 Skol1 5 2 Skol2 5 1 1 Skol3 5 2 Oskol1 7 Oskol2 5 2 Oskol3 7 Figur 13. Figuren och tabellen visar hur ofta ett visst antal prekollisionära svängningar (-4 stycken, se översta raden i tabellen) förekommer för varje försöksperson vid aspirerad ansats. /pi/ 5 4 3 förekomst 2 Skol1 Skol2 1 Skol3 Oskol1 antal vibrationscykler före kollision 1 2 3 4 Skol1 Skol2 Skol3 Oskol1 Oskol2 Oskol3 sångare Oskol2 Oskol3 1 2 3 4 Skol1 3 4 Skol2 3 3 Skol3 5 2 Oskol1 4 3 Oskol2 2 3 Oskol3 4 3 Figur 14. Figuren och tabellen visar hur ofta ett visst antal prekollisionära svängningar (-4 stycken, se översta raden i tabellen) förekommer för varje försöksperson vid oaspirerad ansats. 15
3.2 Akustiskt korrelat - rippel Rippel En svårighet med att analysera ljudsignal i förhållande till höghastighetsfilm är att video och audio spelas in med olika samplingsfrekvenser. Man riskerar att få en i cykler återkommande osynkronisering mellan audio och video. Som referenspunkt för de båda signalerna tillämpas därför en synksignal i slutet av varje inspelning men ju längre bort från denna synksignal desto osäkrare kan synkronin bli mellan audio och video. För att vara säker på synkroniseringen mellan audio och video mättes preliminärt enbart de toner vars första stämbandskollision inträffade inom 25 frames från synkpulsen. Endast tre toner motsvarade detta avståndskriterium. Alla hämtades från ansatsen med aspirerad klusil, [p h i]. Resultatet visar att skolad3 och oskolad1 hade fyra vibrationscykler innan rippel genererades medan oskolad3 hade sju vibrationscykler. Rippel - sista tonen före synkpuls 7 6 5 anlat vibrationscykler 4 3 2 1 skol3 oskol1 oskol3 skol3 ansatstyp oskol1 oskol3 Figur 15. Figuren visar hur många vibrationscykler det går mellan första stämbandskollision och rippeldebuten. Enbart de toner som befann sig inom 25 bildrutor från synksignalen är analyserade. Alla tonerna sjöngs med aspirerad klusil, [p h i]. Oskolad2 genererade inget rippel och hamnar därför på noll. Därefter analyserades samtliga toner i var tonserie indelat efter försöksperson och ansatstyp. För varje försöksperson beräknades medelvärdet av antal vibrationscykler mellan stämbandskollision och rippeldebut indelat efter ansatstyp, dvs. staccato, [p h i] och [pi]. För oskolad2 saknades rippel för alla toner utom två vid staccato och [phi] varför medelvärde inte var möjligt att beräkna för dessa ansatstyper. Även för oskolad3 saknades tillräcklig förekomst av rippel för ansats [p h i] och [pi]. I bilaga 4 och 5 framgår vilka toner som saknade rippel. Eftersom medelvärdesdiagrammet inte visar hur ofta ett antal vibrationscykler förekommer före rippel åskådliggörs detta i figur 17-19. I figur 16 framgår att vid staccato hade skolad1 och skolad2 som regel en respektive två vibrationscykler före rippel. För oskolad2 gick det inte att beräkna medelvärde vid staccatoansatsen pga. för låg rippelförekomst. Oskolad1 och oskolad3 hade fyra respektive sju vibrationscykler före rippel. Vid [p h i] hade skolad1 och skolad2 fler perioder mellan stämbandskollision och rippel jämfört med staccato. Oskolad2 och oskolad3 saknade rippel. Oskolad1 hade sju vibrationscykler före rippeldebut. Vid [pi] var det ingen skillnad mellan oskolad1 och de skolade rösterna. Oskolad3 skanade rippel och oskolad2 hade sju vibrationscykler före rippeldebut. 16
Vibrationscykler från stämbandskollision till rippel - medelvärde 14 13 medelvärde för antal vibrationscykler 12 11 1 9 8 7 6 5 4 3 2 skol1 skol2 skol3 oskol1 oskol2 oskol3 1 stacc phi pi ansatstyp Figur 16. Figuren visar varje försökspersons medelvärde och standardavvikelse för antal vibrationscykler mellan stämbandskollision och rippeldebut, indelat efter ansatstyp. Skolad3 finns inte representerad vid staccatoansatsen då denna ljudfil inte sparades korrekt. När stapeln ligger under noll innebär det att rippel saknades i så hög utsträckning att medelvärdesberäkning inte var möjlig. staccato 6 5 4 3 förekomst Skol1 2 Skol2 1 2 antal vibrationscykler 4 6 9 Skol1 Skol2 Oskol1 Oskol2 Oskol3 sångare Oskol1 Oskol2 Oskol3 1 2 3 4 5 6 7 9 12 Skol1 6 Skol2 4 1 Oskol1 1 3 1 1 Oskol2 Oskol3 1 1 1 Figur 17. Figuren och tabellen visar hur ofta ett visst antal vibrationscykler (-12 stycken, se översta raden i tabellen) förekommer mellan stämbandskollision och rippel för varje försöksperson vid staccatoansats. Skolad3 finns inte representerad vid denna ansatstyp då denna ljudfil inte sparades korrekt. 17
phi 4 3 förekomst 2 Skol1 Skol2 1 Skol3 sångare Oskol2 Oskol1 Oskol2 1 2 3 4 5 6 7 antal vibrationscykler Skol3 8 9 Skol1 1 19 2 Oskol3 1 2 3 4 5 6 7 8 9 1 19 2 Skol1 2 3 2 Skol2 1 4 2 1 Skol3 1 2 2 1 Oskol1 2 2 1 1 1 Oskol2 1 1 Oskol3 1 1 Figur 18. Figuren och tabellen visar hur ofta ett visst antal vibrationscykler (-2 stycken, se översta raden i tabellen) förekommer mellan stämbandskollision och rippel för varje försöksperson vid aspirerad ansats. /pi/ 6 5 4 Skol1 3 förekomst Skol2 2 Skol3 1 Oskol1 antal vibrationscykler 2 4 6 8 Skol1 Skol2 Skol3 Oskol1 Oskol2 Oskol3 sångare Oskol2 Oskol3 1 2 3 4 5 6 7 8 15 Skol1 6 1 Skol2 1 4 1 Skol3 3 1 1 1 Oskol1 1 2 4 Oskol2 1 1 1 1 Oskol3 1 1 Figur 19. Figuren och tabellen visar hur ofta ett visst antal vibrationscykler (-15 stycken, se översta raden i tabellen) förekommer mellan stämbandskollision och rippel för varje försöksperson vid oaspirerad ansats. Ekvivalent ljudnivå Leq beräknades för varje försöksperson och ansatstyp. Figur 2 visar hur starkt de sjöng över hela treklangen i varje ansatstyp. Vid staccato hade skolad1 det lägsta Leq -värdet medan oskolad1 låg 18
högst. Skolad2 och oskolad3 hade samma värde. Vid aspirerad ansats, [p h i], hade skolad3 högst Leq och skolad1 lägst som tidigare. Vid oaspirerad ansats, [pi], hade alla utom skolad3 och oskolad1 lägre Leq jämfört med tidigare ansatser. Skolad3 hade i princip samma som vid [p h i] medan oskolad1 hade högre Leq än vad han hade vid ansatserna med staccato och [p h i]. Leq (db) 92 9 Leq (db) 88 86 84 82 8 78 skol1 skol2 skol3 oskol1 oskol2 oskol3 76 74 stacc phi pi ansatstyp Figur 2. Leq (db) för varje försöksperson och ansatstyp. 3.3 Intonation frekvensavvikelser från målvärden Initiala vibrationers medelfrekvens jämfört med hela tonens medelfrekvens För varje ton beräknades medelvärdet av de tre första vibrationscyklernas grundtonsfrekvens, MVFO 1. Denna jämfördes sedan med medelvärdesfrekvensen för hela tonen, MVFO 2, Avvikelsen2,, dem emellan beräknades i cent med formel (Sundberg1989) 3 : 1) 12 x log1 log2 = 3986 2) = 3986 x log1 (MVFO / MVFO ) 1 2 Varje försöksperson hade tre ansatstyper med ca. sju toner vardera. För varje ansatstyp beräknades medelvärdet och standardavvikelse för tonernas respektive avvikelse från MVFO 2. Nedan visas en stapel för varje försökspersons respektive avvikelsemedelvärde och standardavvikelse indelat efter ansatstyp. I bilaga 8 visas intonationen för varje enskild ton. Figur 21 visar att vid staccato intonerade de två skolade rösterna samt en oskolad lågt i förhållande till MVFO 2. Två oskolade röster intonerade högt. Mest slående var skolad2 som hade en betydande avvikelse på ca. -17 både vid staccato och [p h i]. Detta motsvarar nästan ett helt tonsteg. När det gäller aspirerad ansats, [p h i], intonerade de skolade rösterna initialt lågt i förhållande till MVFO 2 medan de oskolade rösterna intonerade högt. För den oaspirerade ansatsen, [pi], intonerade merparten av försökspersonerna högt i förhållande till MVFO 2. Skolad2 låg lite i underkant men inte alls så mycket som vid de andra ansatstyperna. Oskolad3 intonerade lägst. Oskolad 1 intonerade högt i förhållande till hela tonen vid samtliga ansatstyper. 3 Cent är ett logaritmiskt mått på frekvensförhållanden och motsvarar alltså tonhöjdsskillnader. Ett halvt tonsteg motsvarar 1 cent. 19
Intonationsavvikelse - initalt jämfört med hela tonen 3 2 medelvärdet av avvikelser i cent 1-1 -2 stacc phi pi skol1 skol2 skol3 oskol1 oskol2 oskol3-3 -4 ansatstyp Figur 21. Figuren visar medelvärdet för avvikelserna mellan medelf1 och medelf2 indelat efter ansatstyp och försöksperson. Medelavvikelsen anges i cent. Skolad3 finns inte representerad vid staccatoansatsen då denna ljudfil inte sparades korrekt. Hela tonens medel-f jämfört med förväntat målvärde Därefter jämfördes hela tonens medelgrundtonsfrekvens, MVFO 2 med det förväntade målvärdet, MVFO 3, dvs. den tonserie som försökspersonerna fick höra i början av varje inspelningsförsök. Tonserien hade enligt correlogramanalys följande frekvenser: = 129,7 Hz, = 163,9 Hz, = 196 Hz och C4 = 261,6 Hz. Avvikelsen i cent,, beräknades för varje ton med ovan angivna formel. För varje försökspersons tonserie, och ansatstyp, beräknades medelvärde och standardavvikelse för avvikelserna från målvärdet. Varje försöksperson fick således en stapel per ansatstyp. I figur 22 kan man se att samtliga försökspersoner vid staccatoansatsen intonerade lågt, i förhållande till angivet målvärde, MVFO 3. Mest avvek oskolad2 med ca. 1 cent vilket motsvarar ett halvt tonsteg. Vid aspirerad klusil, [p h i], intonerade de skolade rösterna lågt och de oskolade högt eller väldigt nära målvärdet. Vid oaspirerad klusil, [pi], intonerade samtliga lågt i förhållande till angivet målvärde utom skolad3 som låg 2 cent över målvärdet. Om man jämför ansatstyperna med varandra kan man se att skolad1 och skolad2 i princip intonerade lika i förhållande till målvärde oberoende av ansatstyp. Den individuella variationen med ansatstyp var desto större för skolad3 och de oskolade rösterna. Oskolad2 hade störst skillnad mellan de olika ansatstyper. Vid staccato hade han lägst intonation av alla och vid aspirerad ansats en nära nog exakt intonation i förhållande till målvärdet. 2