BEDÖMNING AV RÖSTKVALITET MED KORRELOGRAM



Relevanta dokument
Uppgift 1. Deskripitiv statistik. Lön

Ekonomiska drivkrafter eller selektion i sjukfrånvaron?

5. Nytta av hörapparat

Kommentar till bilderna. Att spara hörsel för framtiden. Bara det värdefulla är vi beredda att skydda! Hörseln vad kan vi förstå?!

Fonetogram och Rösthandikappindex (RHI) för röstfriska svenska män;

Att leva med knappa ekonomiska resurser

1 Sammanfattning Kunskapsläge Forskning Att inhämta sakkunskap under förundersökning och rättegång... 7

Hur hör högstadielärare?

Självkörande bilar. Alvin Karlsson TE14A 9/3-2015

Vårdens resultat och kvalitet

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Upprättare: Strokeprojektet, delprojektgrupp rehabilitering Granskare: Marie Bergsten Fastställare: Verksamhetschef Margreth Rosenberg

Akuta narkotikarelaterade dödsfall

Statistik Lars Valter

Barn- och ungdomspsykiatri

4:4 Mätinstrument. Inledning

Historia Årskurs 9 Vårterminen 2014

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

En ideal op-förstärkare har oändlig inimedans, noll utimpedans och oändlig förstärkning.

Projektmodell med kunskapshantering anpassad för Svenska Mässan Koncernen

Resultatnivåns beroende av ålder och kön analys av svensk veteranfriidrott med fokus på löpgrenar

VIDARKLINIKEN VIDARKLINIKEN Hälsorelaterad livskvalitet och självskattad hälsa (EQ-5D)

Linjär regressionsanalys. Wieland Wermke

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Högstadieelevers uppfattning och kunskap om sexualundervisningen. Sofia Johansson

Vätebränsle. Namn: Rasmus Rynell. Klass: TE14A. Datum:

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Working Paper Series

Validering av kvalitetsregisterdata vad duger data till?

Svenskt Näringsliv/Privatvården. Patienternas syn på vårdcentraler i privat och offentlig drift

Solowheel. Namn: Jesper Edqvist. Klass: TE14A. Datum:

Tomträttsindexet i KPI: förslag om ny beräkningsmetod

DIGITALA PROJEKT Väderstation

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

Second handbook of research on mathematics teaching and learning (NCTM)

Samrådsgrupper Hösten 2014

Digitalt festivalengagemang

NEPI - Stiftelsen nätverk för läkemedelsepidemiologi

Historia Årskurs 9 Vårterminen 2015

Spektrogram att göra ljud synligt

Vindbrukskollen Nationell databas för planerade och befintliga vindkraftverk Insamling och utveckling

Datorlaboration 2 Konfidensintervall & hypotesprövning

Företagsamheten 2014 Östergötlands län

VIDARKLINIKEN VIDARKLINIKEN Hälsorelaterad livskvalitet och självskattad hälsa (EQ-5D) Järna, april 2011 Tobias Sundberg

Stressade studenter och extraarbete

Handisam. Beräkningsunderlag för undersökningspanel

Utvärdering av försöket med frivilliga drogtester i Landskrona kommun

Nyckeltalsinstitutets. årsrapport 2013

Appendix 1A. Konsekvenser av nedsatt hörsel

Resultatrapport över uppföljning av fallet Partille Centrum

En bild säger mer än tusen ord?

Könsfördelning inom utbildning, forskning och personal vid Umeå universitet

Stabil läkarbemanning är avgörande för kontinuitet och vårdkvalité i primärvården

Ur boken Självkänsla Bortom populärpsykologi och enkla sanningar

Webbregistrering pa kurs och termin

75059 Stort sorteringsset

Nybeviljade sjukersättningar/ aktivitetsersättningar

Narkotikarelaterad dödlighet i Stockholms län Anna Fugelstad, Mats Ramstedt RAPPORT NR Om den aktuella utvecklingen med fokus på 2012

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

Vad tycker de närstående om omvårdnaden på särskilt boende?

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 1

Enkätstudie bland passagerarna på Gotlandia II och Gotland

TEMARAPPORT 2016:2 UTBILDNING

10. Förekomst av hörselnedsättning och indikationer för hörapparat

Startsida Styrelse Lokalförening Medlem Utbilningar Terapeuter Handledare Litteratur Arkiv Länkar

Alkohol, tobak, narkotika och dopning

Sociala medieströmmar metoder för analys och samarbete via nya medieformat. Pelle Snickars, Umeå universitet & Lars Degerstedt, Södertörns högskola

PM NÄTAVGIFTER Sammanfattning.

Olle Johansson, docent Enheten för Experimentell Dermatologi, Institutionen för Neurovetenskap, Karolinska Institutet, S Stockholm

Röststörningar Vilka utmaningar står röstlogopedin inför?

6 Selektionsmekanismernas betydelse för gruppskillnader på Högskoleprovet

Forma komprimerat trä

Att skriva Hur utformar man en Social berättelse? Lathund för hur en Social berättelse kan skrivas

Lee Silverman Voice Treatment - Vad händer när patienten lämnar kliniken? VetEM

Att hitta rätt polis!

Statistik och epidemiologi T5

Är sjukvården jämställd och går det åt rätt håll?

Studerandes sysselsättning YH-studerande som examinerades 2014

SÄTT DIG NER, 1. KOLLA PLANERINGEN 2. TITTA I DITT SKRIVHÄFTE.

Ung och utlandsadopterad

Inledning till Wavesurfer av Christine Ericsdotter (Lingvistik, Stockholms universitet)

diskriminering av invandrare?

Rapport från Praktik på SVOX AG till

Studien. Teknik. Akustik. Enkätundersökning. En kvalitativ, explorativ studie av ett case. Bestående av tre delar:

Är trafikrelaterade avgaser en riskfaktor för astma hos vuxna? Lars Modig

Rapport från Läkemedelsverket

Finns det en skillnad mellan vad barn tror sig om att klara jämfört med vad de faktiskt klarar?

Skolans resultatutveckling

Kvalitetsregister & legala förutsättningar. Moa Malviker Wellermark, Jurist SKL, Landstingsjurist LiÖ

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Examples on Analog Transmission

Methodological aspects of toe blood pressure measurements for evaluation of arterial insufficiency in patients with diabetes

Vilka ska vi inte operera?

Ingivarenkäten SKM Analys av vad som påverkar SKM-ingivarnas förtroende för Kronofogdemyndigheten och nöjdhet med myndighetens service

Årsrapport för Svenskt Kvalitetsregister för Karies och Parodontit. Hans Östholm Jörgen Paulander Inger v. Bültzingslöwen

Ämnesprovet i matematik i årskurs 9, 2014 Margareta Enoksson PRIM-gruppen

Akustik läran om ljudet

FACIT version (10 sid)

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Transkript:

KAROLINSKA INSTITUTET Institutionen för klinisk vetenskap, Intervention och teknik, CLINTEC Enheten för logopedi och foniatri Karolinska universitetssjukhuset Huddinge BEDÖMNING AV RÖSTKVALITET MED KORRELOGRAM jämförelse med auditiv perceptuell bedömning Lena Bjärnelid & Lisbeth Lindquist Magisteruppsats i logopedi, 20 p Logopedkurs 25 Höstterminen 2005 Handledare: Britta Hammarberg Svante Granqvist

SAMMANFATTNING...3 ABSTRACT...4 1.1 OREGELBUNDENHET I FONATIONEN...5 1.2 F0-EXTRAKTION...6 1.3 RÖSTKVALITETERNA SKRAP, SKROVEL, KNARR OCH DIPLOFONI...6 1.4 FYSIOLOGISKA ASPEKTER AV RÖSTKVALITET...8 1.5 SPEKTROGRAM...8 1.6 KORRELOGRAM...9 2. SYFTE OCH HYPOTESER...11 2.1 SYFTE...11 2.2 HYPOTESER...11 3. METOD...11 3.1 URVAL AV RÖSTER...11 3.2 DEN PERCEPTUELLA BEDÖMNINGEN...12 3.2.1 Röstbedömningsprotokollen...12 3.2.2 Definitioner av röstbedömningsparametrar...13 3.3 BEDÖMNINGEN MED KORRELOGRAM...13 3.3.1 Korrelogrambedömningsprotokollet...14 3.3.2 Definitioner av korrelogrambedömningsparametrarna...14 3.4 GRUNDTONSANALYS MED HISTOGRAM...16 3.5 STATISTISK BEARBETNING...16 3.6 FORSKNINGSETISKA ÖVERVÄGANDEN...17 4.0 RESULTAT...17 4.1 INTERBEDÖMARRELIABILITET FÖR SVEA-BEDÖMNINGARNA...17 4.2 JÄMFÖRELSE AV GRUNDTONSFREKVENSBEDÖMNINGAR...18 4.3 SVEA-VÄRDENA KORRELERADE MED KORRELOGRAMBEDÖMNINGARNAS VÄRDEN...22 4.4 JÄMFÖRELSE MELLAN ANDRA- OCH FÖRSTA-INSPELNINGARNA...30 4.4.1 Jämförelse av SVEA-bedömningarnas värden...30 4.4.2 Jämförelse av korrelogrambedömningarna...31 4.5 KORRELATION MELLAN KORRELOGRAMPARAMETRARNA...32 5. DISKUSSION...39 5.1 GRUNDTONSMÄTNING...39 5.2 SVEA-VÄRDENAS SAMVARIATION MED KORRELOGRAMBEDÖMNINGARNAS VÄRDEN...39 5.3 JÄMFÖRELSE AV FÖRSTA- OCH ANDRA-INSPELNINGARNA...40 5.4 SAMVARIATION MELLAN KORRELOGRAMPARAMETRARNA...41 5.5 VAD KAN KORRELOGRAMMET TILLFÖRA I NULÄGET?...42 5.6 MÖJLIGA FELKÄLLOR...43 5.7 FRAMTIDA STUDIER...43 5.8 AVSLUTANDE DISKUSSION...43 6. SLUTSATSER OCH SAMMANFATTNING...44 TACK...46 REFERENSER...47 Bilaga 1 Bilaga 2 2

Sammanfattning Inom klinisk verksamhet är auditiv perceptuell röstanalys den vanligaste metoden för bedömning av röstkvalitet. Datorbaserad akustisk analys av röster kan ibland vara ett användbart komplement till auditiv perceptuell analys och kan även ha vissa fördelar jämfört med denna. Korrelogrammet är en nyutvecklad metod för datoriserad röstanalys. Korrelogrammet har tidigare beskrivits i en studie (Granqvist & Hammarberg 2003) där exempel på korrelogram visas och analyseras. Korrelogrammet är i första hand avsett att visa på kandidater till F0, i röster där F0- extraktion kan vara problematisk pga. att fonationen är operiodisk. Något dövtest, där en bedömare får göra en enbart visuell bedömning av röstkvalitet, har tidigare inte gjorts. Syftet med föreliggande studie var att undersöka hur visuell bedömning med korrelogram överensstämmer med auditiv perceptuell bedömning av röster och därmed fördjupa kunskapen om hur korrelogrammet fungerar som analysmetod. Studien syftade även till att undersöka om korrelogrammet visade de förbättringar i röstkvalitet som enligt den auditiva perceptuella bedömningen ägt rum hos samtliga försökspersoner mellan inspelningarna. Det gjordes även en jämförelse mellan de olika bedömda parametrarna i korrelogrammet. Två röstinspelningar från vardera av 23 patienter med någon av diagnoserna recurrenspares, kronisk laryngit, reinkeödem eller stämbandsknottror ingick i studien, således sammanlagt 46 röstinspelningar. Rösterna hade valts ut ur en databas av inspelningar på en röstklinik. Urvalskriterierna var kraftigt hes/skrovlig/avvikande röst vid första inspelningen och klar förbättring vid andra inspelningen. Författarna bedömde rösterna perceptuellt och korrelogrammets konstruktör bedömde rösterna visuellt med hjälp av korrelogram. Resultaten bekräftade det samband mellan auditivt perceptuellt bedömt taltonläge och visuellt bedömt grundtonläge i korrelogrammet som förväntades i hypoteserna i föreliggande studie. Resultaten visade även en del andra statistiskt signifikanta samband, det tydligaste mellan auditivt perceptuellt bedömt knarr och visuellt bedömd kandidatbredd samt sidband i korrelogrammet. Kandidatbredd och sidband samvarierade även sinsemellan. 3

Abstract Using the correlogram for voice evaluation a comparison with auditory perceptual evaluation In clinical practice, auditory perceptual voice analysis is the most basic method used to evaluate voice quality. Computerized acoustic voice analysis can sometimes be a useful complement to auditory perceptual analysis and it can also imply certain advantages. The correlogram is a newly invented computer method for voice analysis. The correlogram has previously been described in a paper by Granqvist & Hammarberg (2003) in which examples of correlograms were displayed and analyzed. The main purpose of the correlogram is to show F0 candidates for voices in which F0- extraction may be problematic because of aperiodicity. Until now no mute-test, in which a person has made an evaluation of voice quality exclusively visually, has been carried out. The present study aimed at investigating to what extent visual evaluation of a correlogram agreed with auditory perceptual voice analysis and also at gaining knowledge in a broader sense in what ways the correlogram works as a method for voice analysis. A second purpose of this study was to find out whether the correlogram could be used to reflect improvement due to voice therapy or surgery. Finally, a comparison was made between the parameters that had been evaluated in the correlogram. In the present study two voice recordings of each of 23 patients, diagnosed with either one of the diagnoses vocal fold paralysis, chronic laryngitis, Reinke s edema or vocal nodules, were included, thus in all 46 recordings. The recordings were taken from a database of recordings at a voice clinic. The criteria for inclusion were very hoarse/rough/abnormal voice at the first recording and considerable improvement at the second recording. The authors evaluated the voices auditory perceptually and the inventor of the correlogram evaluated the same recordings visually from the correlograms. The results confirmed the agreement between the auditory perceptual evaluation of F0 and the F0 evaluated in the correlogram, as was expected from the hypothesis of the present study. The results pointed out a couple of significant correlations, the most verified between auditory perceptually evaluated vocal fry and visually evaluated candidate width and sidebands. There was also a significant correlation between candidate width and sidebands. 4

1. Inledning När man bedömer en röst brukar man analysera röstens kvalitet, styrka och läge. Analys av röster kan göras med hjälp av röstanalysprogram. De röstanalysprogram som finns idag ger en tillförlitlig bedömning av grundtonen, F0, för röster med normal grad av aperiodicitet. Med aperiodicitet menas att ljudvågen innehåller oregelbundna svängningar. Dessvärre ger dessa program inte en säker bedömning av F0 när rösten har en hög grad av aperiodicitet, eftersom dessa röster inte har någon stabil grundtonsfrekvens. Flera studier har gjorts som tyder på att det finns röstanalysprogram som fungerar bra när det gäller F0-extraktion av normala röster (Karnell, Hall & Landahl 1995, Bielamowics, Kreiman, Geratt et al 1996, Titze och Liang 1993). Enligt Askenfelt & Hammarberg (1986) får grundtonsdetektorn svårigheter att urskilja en stabil grundtonskandidat hos störda röster. Korrelogrammet är en nyutvecklad metod för röstanalys som, istället för att vid F0-extraktion ange en grundtonsfrekvens visar flera tänkbara kandidater för F0 (Granqvist & Hammarberg 2003). Rätt kandidat, dvs. första-kandidaten, väljs ut manuellt. I de fall första-kandidaten är otydlig kan det vara andra-kandidaten som är rätt kandidat. Detta innebär att man slipper få felaktigt F0-värde som kan förstöra resultaten av vidare analys. Eftersom korrelogrammet visar periodiciteten i rösten, och därmed också eventuell aperiodicitet, dvs. instabil F0, skulle det vara tänkbart att detta skulle säga något om röstens kvalitet. Föreliggande studie syftar till att göra korrelogrambedömningar av olika avvikande röster utan att bedömaren får lyssna på rösterna. 1.1 Oregelbundenhet i fonationen Grundtonsfrekvensen, F0, (Hz) motsvarar vibrationshastigheten hos stämbanden. I vanliga fall mäter man det genomsnittliga F0-värdet för att se om frekvensen är normal för patientens ålder och kön. Standardavvikelsen hos grundtonsfrekvensen och frekvensomfånget i talrösten mäts för att man ska se hur mycket F0 varierar. Hos en monoton röst kan man förvänta sig en liten standardavvikelse och litet frekvensomfång (Colton and Casper 1996). F0 kan mätas under fonation av uthållna vokaler eller under läsning av en text. F0 varierar beroende på vilket talmaterial som används och variationen är mycket mindre för uthållna vokaler (Colton & Casper 1996). Användandet av textläsning eller ett stycke ur en konversation ger oftast större variation i grundtonsfrekvens, vilket gör grundtonsextraktion till en mer komplex procedur eller en som kräver dyrare utrustning (Colton & Casper 1996). Hirano (1981) menade att många röstrubbningar är mer uppenbara under början och slutet ( the transitional phases ) av fonationen. Han påpekade också att det inte finns någon standardiserad procedur för att välja ut avsnitt som lämpar sig för akustisk analys. Titze (1995) skrev om begreppen perturbation och fluktuation som generella fenomen av oregelbundenhet i den mänskliga rösten. Perturbation anses vara en mindre störning eller en temporär förändring från det förväntade beteendet. Fluktuation beskrevs av Titze (1995) som en mer allvarlig avvikelse från ett mönster. Whereas a perturbed system usually returns to normal (it is attracted to a stable state), a fluctuation system is somewhat out of control; it cannot find a stable state (s. 6). Ett exempel på fluktuation är rösttremor. Rösttremorn eller vibratot är ett mönster i sig snarare än en avvikelse från ett mönster. Även röster som uppfattas som normala innehåller en del fluktuation. There is something about a low frequency fluctuation in the voice that makes it warm and acceptable (Titze 1995). Titze (1995) definierade jitter som a short-term (cycle-to-cycle) perturbation in the fundamental frequency of the voice (s. 6). Jitter finns i viss mån hos alla talare och graden varierar med ålder, kön och fysiska förutsättningar (Colton & Casper 1996). 5

Shimmer är, enligt Titze (1995), a short-term (cycle-to-cycle) perturbation in amplitude (s. 6). Begreppet shimmer kan användas om sång men beskriver då a beautiful bell-like vocal quality och bör inte förväxlas med begreppet shimmer som används om tal (Titze 1995, s. 7). Vid oregelbunden fonation kan spektrala toppar, mellandeltoner (eng. subharmonics), uppstå. Sådana frekvenser beskrevs av Titze (1995) som frequencies that lie between or below the harmonic frequencies and are rational divisions of the fundamental frequency (eg. ½, 1/3) or their integer multiples (Titze 1995, s. 34). 1.2 F0-extraktion Inom forskning kring röstkvalitet är grundtonsextraktion (F0-extraktion) särskilt relevant (Granqvist & Hammarberg 2003). F0-extraktion innebär att man mäter grundtonen. De värden som kan erhållas vid F0-extraktion är medelvärde, typvärde samt standardavvikelse av F0 som kan räknas om till omfång. Som nämnts i inledningen har flera studier gjorts som tyder på att det finns röstanalysprogram som fungerar bra när det gäller F0-extraktion av normala röster. Karnell (1995) jämförde de tre röstanalysprogrammen Voice Analysis Program, Cspeech och AUDED/SEG och fann en hög korrelation mellan programmen vad gäller F0-mätning men låg korrelation vad gäller perturbationsmätning. Bielamowics et al (1996) jämförde Cspeech, Computerized Speech Laboratory och SoundScope och fann att programmen överensstämde väl, men inte perfekt, vad gäller F0- mätning. Bielamowics et al (1996) konstaterade att de skillnader i F0 som programmen visade inte kunde förklaras eftersom kommersiella system inte ger information om var i cykeln som mätningen börjar och slutar. Titze och Liang (1993) jämförde tre metoder för F0-extraktion för att undersöka hur denna extraktion påverkar resultatet av perturbationsmätning. Studien handlade om F0-extraktion då perturbationen var mindre än 5 %. Av de metoder som jämfördes visade sig waveform matching vara mer resistent mot brus och små inslag av amplitudfluktuation än peak-picking och zerocrossing. Slutsatsen som drogs var att waveform matching var den metod som fungerar bäst när frekvensvariationerna understiger 6 % per period. För signaler med större variation mellan perioderna ansåg Titze & Liang att det inte gick att rekommendera någon av metoderna i nuläget. Som nämnts ovan får grundtonsdetektorn svårigheter att urskilja en stabil grundtonskandidat vid analys av störda röster. Askenfelt & Hammarberg (1986) beskrev hur mellandeltoner påverkar grundtonsdetektorn i system med double peak-picking algoritm. I en sinusvåg på t ex 200 Hz mäts varje topp men då en delkomponent på 100 Hz tillkommer så sker mätning vid varannan topp. 1.3 Röstkvaliteterna skrap, skrovel, knarr och diplofoni Störda röster kännetecknas ofta av instabilitet i frekvens och amplitud. Hos en röst med t.ex. någon av diagnoserna kronisk laryngit, reinkeödem, recurrenspares eller stämbandsknottror är frekvensoch amplitudvariationen större än normalt (Colton & Casper 1996). Den stora frekvens- och amplitudvariationen innebär att rösten perceptuellt kommer att innehålla varierande grad av framför allt skrovel, skrap, knarr och diplofoni. I Askenfelt & Hammarbergs studie (1986) undersöktes förhållandet mellan sju olika sätt att mäta perturbation i röster (löpande tal). De olika sätten att mäta rankades utifrån jämförelse med perceptuell bedömning av rösterna. Resultatet visade att standardavvikelsen av distributionen av relativa skillnader mellan närliggande pitch periods var det mest lämpliga perturbationsmåttet att använda kliniskt. Det framhölls också i studien att variationer i röstkvalitet i löpande tal, som beror på skiftande tonhöjd och intensitet, ger information om röstfunktionen. Huddénius (2001) rapporterade att logopederna på Kullbergska sjukhuset, Katrineholm, hade noterat att grundtonshistogram över oregelbundna röster, vilka perceptuellt uppfattas som skrovliga, 6

skrapiga och knarriga, ofta hade en bimodal fördelning av F0. Med bimodal fördelning menas att grundtonsdetektorn registrerar på två olika frekvenser t ex både på 200 Hz och på 100 Hz. Efter terapi, då rösten innehöll mindre av skrovel, skrap och knarr, märkte man att registreringen på den låga frekvensen hade minskat, och att F0-fördelningen bara hade en puckel. Diplofoni ( diplophonia ) definierades av Titze (1995) som phonation in which the pitch is supplemented with another pitch that corresponds to a frequency an octave higher; some roughness is usually perceived; dynamically, there is a period doubling (an F0/2 subharmonic) (s. 32) (fonation i vilken tonhöjden kompletteras av en annan tonhöjd som ligger på en frekvens en oktav högre upp, en del skrovel brukar höras, dynamiskt finns det en perioddubblering (en F0/2 subharmoni). Colton & Casper (1996) skrev att diplofoni betyder att two distinct pitches are perceived simultaneously during phonation (s. 20). Cavalli & Hirson (1999) betonade att det är just den simultana förekomsten av två tonhöjder som skiljer diplofoni från andra röstparametrar. Den simultana förekomsten is important in distinguishing diplophonia from yodelling, in which there are rapid pitch breaks from one pitch to another in quick succession, and from creak, which may comprise two main frequency components derived from alternating short and long pitch periods (s. 542). Definitionen av skrovel ( roughness ) varierar mellan olika forskare (Imaizumi 1986, s. 457). Skrovel definieras ofta som en oregelbundenhet t.ex oregelbundenhet i stämbandssvängningarnas amplitud, icke-harmoniska komponenter och lågfrekventa bullerljud (Imaizumi 1986, s. 457-458). I sin studie drog Imaizumi (1986) slutsatsen att the accoustic correlates of rough voice are not only the multiplicative variations which occur over several pitch periods, but also those which are synchronous with the vocal pitch period (s. 461-462). Imaizumi (1986) påpekade dock att resultatet av studien inte motsäger att oregelbundenheter kan iakttas i talvågformen. Röster med mellandeltoner kan uppfattas som skrovliga (Titze 1995, s. 34). Skrovel definierades av Askenfelt och Hammarberg (1986) som low-frequency phonatory irregularity, presumably related to some kind of irregular vocal fold vibrations (s. 53). Skrap ( gratings/scrape ) är en term som använts särskilt vid svenska röstkliniker och brukar definieras som högfrekvent skrovel. Hammarberg (2000 a) definierade skrap som high-frequency phonatory irregularity, presumably related to some kind of irregular vocal fold vibrations at higher pitch than rough voice. Knarr ( vocal fry/creakiness ) förekommer vid sjunkande subglottalt tryck i kombination med vissa vokaler och tonhöjder och definierades av Askenfelt & Hammarberg (1986) som a rapid series of taps, like a stick being run along a railing; low-frequency periodic vibration (s. 53). Enligt Fujimura (1988) finns det i knarrig röst en tendens att grundtonsfrekvensen alternerar mellan olika värden i andra delar av yttrandet än mot slutet. Detsamma gäller vid en del röstrubbningar. I en studie om förhållandet mellan deltoner och bruskomponenter vid heshet delade Yanagihara (1967) in hesa röster i fyra typer utifrån spektrografisk analys. Han menade att det är kliniskt användbart att klassificera röster enligt grad av heshet av två anledningar. Den ena är att graden av heshet kan uttryckas som en siffra. Den andra är att den objektiva akustiska graden av heshet baserad på hans metod (spektrografisk analys) väl överensstämmer med subjektiv perceptuell grad av heshet. Typ 1 innebär att de regelbundna harmoniska komponenterna är blandade med bruskomponenter, huvudsakligen i vokalernas formantregion. Typ 2 innebär att bruskomponenterna i den andra formanten hos vokalerna /e/ och /i/ dominerar över de harmoniska komponenterna och några få bruskomponenter tillkommer i högfrekvensregionen över 3000 Hz hos vokalerna /e / och /i/. 7

Typ 3 innebär att andra formanten hos/e/ och /i/ är helt ersatt av bruskomponenter och de tillkommande bruskomponenterna över 3000 Hz förstärker ytterligare sin energi och utökar sin omfattning. Typ 4 innebär att andra formanten hos /a/, /e/ och /i/ är ersatt av bruskomponenter och till och med den första formanten hos alla vokaler förlorar ofta sina periodiska komponenter, vilka ersätts av bruskomponenter. Dessutom tillkommer intensifierade högfrekventa bruskomponenter. Yanagihara (1967) betonade dock att kvaliteten hos en hes röst inte bara beror på bruskomponenter och förändringar i harmonisk struktur, utan en annan aspekt av heshet är aperiodicitet i grundtonsfrekvensen. Olika klassifikationer har använts när man bedömer rösters kvalitet. Titze (1995) delade in röster i tre olika typer utifrån graden av periodicitet. Typ 1 innebär att rösten innehåller nästan helt periodiska signaler som inte visar någon kvalitativ förändring i det talavsnitt man analyserat. Typ 2 innebär att signalerna i rösten har kvalitativa förändringar i det talavsnitt man har analyserat eller signaler med subharmonier eller modulerande frekvenser vars energi närmar sig grundtonsfrekvensen; därför finns det inte en enda tydlig grundtonsfrekvens under talavsnittet. Typ 3 innebär signaler som inte verkar ha någon periodisk struktur alls. 1.4 Fysiologiska aspekter av röstkvalitet Avvikande röstkvalitet kan ha funktionella (t.ex. röstmissbruk) eller organiska orsaker. Ofta är det funktionella och organiska faktorer i samverkan som orsakar den avvikande röstkvaliteten. Röstmissbruk kan lägga grunden till organiska röstrubbningar och likaledes kan organiska avvikelser lägga grunden till funktionella röstrubbningar. De röstkvaliteter som nämnts ovan (skrovel, skrap, knarr och diplofoni) är vanliga vid diagnoserna kronisk laryngit, reinkeödem, recurrenspares och stämbandsknottror. Flera beskrivningar har gjorts av Fritzell 1977, Aronson 1990, Casper & Colton 1996, Borell, Sääf-Rothoff & Södersten 2003. Dessa beskrivningar sammanfattas kort nedan. Kronisk laryngit (kroniskt inflammatoriskt retningstillstånd i larynxsslemhinnan) utmärks av ett lågt röstläge, skrovel och hyperfunktion. Vid kompensationsbeteende kan högt läge och pressat läckage förekomma. Det kan också vara svårt att höja rösten. Karakteristiskt för reinkeödem (kroniskt ödem i Reinkes skikt i stämbandsslemhinnan) är lågt eller uppressat röstläge, ibland fladder, kompensatorisk press och grov, skrovlig röst. Recurrenspares (total eller partiell förlamning av de inre larynxmusklernas funktion) innebär en nedsatt rörlighet eller immobilitet av vanligen det ena stämbandet eller båda stämbanden. Det stillastående stämbandet brukar orsaka en läckande röst med registerbrott, diplofoni och afoniska inslag. En person med recurrenspares blir ofta lätt andfådd och röststyrkan blir låg. Recurrenspares kan orsaka en sekundär röststörning i form av kompensatoriskt pressad falsettklang, fickbandsfonation och pressat läckage. Vid stämbandsknottror (bilaterala uppdrivningar av stämbandsslemhinnan i ytliga lagret av lamina propria) blir rösten ofta knarrig, skrapig och instabil med afoniska inslag. Röstläget är ofta lägre än normalt. Stämbandsknottror kan orsaka en sekundär röststörning då rösten kan bli läckande eller kompensatoriskt pressad. 1.5 Spektrogram Inom klinisk verksamhet är perceptuell röstanalys den vanligaste metoden vid bedömning av röstkvalitet. I ökande omfattning använder logopeder även datorprogram för både akustisk och perceptuell röstanalys för att utvärdera röstterapi. Ett sådant program är SoundSwell (Ternström 8

2000). I SoundSwell kan man göra grundtonsanalys, spektrumanalys och långtidsmedelvärdesspektrum (LTAS). Spektrumanalys innebär att man mäter hur energin i en röst fördelar sig vid olika frekvenser. Av spektrumanalysen framgår t.ex. om det finns mycket lågfrekvent eller högfrekvent brus i rösten, dvs. skrovel eller skrap. Spektrogrammet är mycket viktigt inom övrig talforskning men inte lika användbart inom röstforskningen (Lindblad 1992). Smalbandsspektrogram har fin frekvensupplösning men grov tidsupplösning, därför kan man se de enskilda deltonerna. I bredbandsspektrogram, som har grov frekvensupplösning men fin tidsupplösning, kan man ofta se glottispulserna men inte de enskilda deltonerna. Formanterna syns tydligare i bredbandsspektrogram. Den information vi helst tar från bredbandsspektrogram är, enligt McAllister (1994), formantfrekvenser och tidsförlopp dvs. formanternas och andra spektrala egenskapers förändringar i tiden. Spektrogram kan användas för att analysera störda röster så som beskrivits ovan (Yanagihara 1967). Brus och svaga ljud har egenskaper som enkelt kan studeras i ett spektrogram. I ett spektrogram av en störd röst finns det mer brus och mindre energi i harmonierna (Colton & Casper 1996). LTAS visar en genomsnittlig energifördelning för en längre tidsperiod, och har använts i ett flertal studier av störd röstfunktion, bl.a. av Hammarberg (1986). 1.6 Korrelogram Korrelogram är ett röstanalysprogram som skapats av Svante Granqvist vid Institutionen för Tal, Musik och Hörsel vid KTH. Korrelogrammet saluförs som programvara hos SoundSwell Signal Workstation software (Hitech Development AB, Sweden). Korrelogrammet kan användas för F0-analys. Hammarberg (2000 b) rapporterade att korrelogrammet som analysmetod med lyckat resultat har använts för semi-manuell F0-extraktion av gravt dysfoniska röster (typ 2 enligt Titzes klassifikation). e n p o j k e k o m e n d a g i n s p r i Figur 1: Bild av ett korrelogram av yttrandet En pojke kom en dag inspri Korrelogrammet visar de möjliga frekvenser där F0 kan ligga utan att peka ut någon av kandidaterna som F0. F0-kandidaterna visas som mörka horisontella band vid olika frekvenser och längs en tidsaxel. I stället för en extraherad F0-kurva ger korrelogrammet en bild av periodiciteten i rösten. Korrelogrammet är tredimensionellt med tid på x-axeln, korrelationsfördröjning inverterad till frekvens på y-axeln och korrelation på z-axeln. Z-axeln visas i gråskala som i ett spektrogram. Fördröjningar som motsvarar heltalsmultipler av periodtiden ger hög korrelation och resulterar i kandidater vid F0, F0/2, F0/3 osv. (Granqvist & Hammarberg 2003). Bild av ett korrelogram visas i figur 1. 9

Korrelogrammet bygger på wave-form matching. Fördelarna med wave-form matching är att känsligheten för brus är låg (Titze & Liang 1993), man kan få flera mått av F0 per period och den är oberoende av var man påbörjar sin mätning (Granqvist & Hammarberg 2003). Sidband uppträder i korrelogrammet då en överton sammanfaller med en formant och är oftast ljusare grå än F0-kandidaterna (Granqvist & Hammarberg 2003). Sidband är ett tecken på en välexciterad första formant, vilket innebär att glottispulserna innehåller relativt hög energi vid frekvensen för första formanten. Första formanten blir då stark i förhållande till grundtonen. Sidband syns oftare på lägre grundton eftersom en hög grundton med ett glest grundtonsmönster gör det troligare att formantfrekvensen hamnar mellan deltonerna. Således uppträder sidband oftare hos mansröster än hos kvinnoröster. Klangfulla, starka, men även pressade röster kan ha sidband. Läckande röster och en del konsonanter (t.ex. /m, n, l, b/) saknar typiskt sidband. Kandidatbredd är relaterat till förekomst av sidband. Det finns ett samband mellan breda kandidater och en grundtonsdominerad röst. Likaså finns det ett samband mellan smala kandidater med sidband och en formantfrekvensdominerad röst. Med formantfrekvensdominerad röst menas att den innehåller en välexciterad formant. Breda kandidater innebär att det finns en svag första formant i förhållande till grundtonen. Detta tyder på ett hypofunktionellt läckage (Granqvist & Hammarberg 2003). Normala röster verkar ha ganska smala kandidater och grundtonskandidaten är relativt stabil. Deltoner och subharmoniska svängningar går att påvisa i korrelogrammet genom att man observerar förhållandet mellan kandidaterna. I korrelogrammet motsvarar första kandidaten F0. En kandidat vid F0/2 behöver inte betyda att det finns en subharmonisk svängning (Granqvist & Hammarberg 2003). Subharmoniska svängningar syns inte direkt i korrelogrammet men det finns karakteristika som tyder på förekomsten av sådana t.ex. en konstant (i frekvens) andra kandidat (C2) och en varierande första kandidat (C1) (vid bicyklicitet) (Granqvist & Hammarberg 2003). Bicyklicitet kan göra att rösten uppfattas som knarrig eller diplofon. Bicyklicitet kännetecknas av en första kandidat som hoppar upp och ner varannan glottispuls. Bicyklicitet får också till följd att andra kandidaten ligger på en stabil frekvens. Vid bicyklicitet finns således en stabil andra kandidat och en fluktuerande första kandidat. I princip ligger alla jämna kandidater stabila och alla udda hoppar, men de högre ordningarnas kandidater (lägre frekvens) kan vara svåra att följa i frekvenskorrelogrammet. Ibland ser man även tricyklicitet, men sällan utan bicyklicitet, rösten hoppar mellan dem. En stabil tredje kandidat samt varierande första och andra kandidater tyder på tricyklicitet. Svag periodicitet syns i t ex skrovliga röster. Skrovel kännetecknas av kaos dvs. det är svårt att hitta stabila kandidater överhuvudtaget. Ofta finns inslag av bi- eller tricyklicitet, men det är knappast de som dominerar lyssningsintrycket. I korrelogrammet kan man i störda röster se stora fluktuationer i frekvens hos första kandidaten. Vid frekvensperturbation, jitter, låter rösten skrovlig eller skrapig. Knarr verkar kunna ha flera akustiska karaktäristika: antingen bicyklicitet eller glesa glottispulser. Skrap har slående likheter med bicykliskt knarr, i korrelogrammet (Granqvist & Hammarberg 2003) Naturligtvis är det lättare att upptäcka visuella tecken då man på förhand känner till röstkvaliteten eller om man får lyssna på rösten samtidigt som den visas i korrelogrammet. Frågan återstår därför om det med enbart visuell analys går att skilja störda röster från normala och om det går att skilja de olika röstparametrarna från varandra i korrelogrammet. Med anledning av detta är denna undersökning upplagd som ett dövtest där bedömaren inte vet något annat om rösten som avbildas med korrelogrammet än att den kan innehålla skrovel, skrap, diplofoni, knarr eller ingetdera. Ingen sådan studie har tidigare gjorts av korrelogrammetoden. 10

2. Syfte och hypoteser 2.1 Syfte Syftet med denna studie är att ge ökad kunskap om korrelogram som analysmetod och att underlätta F0 analys vid alla sorts röstkvalitéer. Syftet är också att undersöka om det kan finnas mönster i korrelogrammet, som kan relateras till olika slags röstkvaliteter. Dessutom har syftet varit att ta reda på om det finns några parametrar hos korrelogrammet som samvarierar och om korrelogram kan påvisa förändringen i röstkvalitet såsom t.ex. förändringar under röstterapi. 2.2 Hypoteser Det förväntas utifrån den förhandsinformation som finns att tillgå om korrelogrammet och som redogörs för i inledningen (Granqvist & Hammarberg 2003) att en del röstavvikelser kan kännas igen i korrelogrammet. Det förväntas därför att man ska hitta en del samvariation, främst mellan: multicyklicitet och knarr afoni och fonationsavbrott taltonläge och grundtonläge kaos och skrovel/skrap instabil grundton och grundtonsinstabilitet bred kandidat och hypofunktionell/läckande I Granqvist & Hammarberg (2003) visas korrelogram av sju olika röstexempel. Sex av exemplen är röster hos patienter med någon typ av diagnos och en är rösten hos en operasångare som sjunger. Utifrån de korrelogramtolkningar som gjorts i studien verkar det troligt att man kan avläsa oregelbundenheter i fonationen i korrelogrammet. Om man kan skatta grad av avvikelse med hjälp av korrelogrammet så verkar det också troligt att det går att se de eventuella förbättringar som skett efter röstbehandling. Resultaten borde också, enligt Granqvist & Hammarberg (2003), visa samband mellan: kandidatbredd och sidband 3. METOD Studien genomfördes i fem steg. 1. Fyrtiosex röstinspelningar valdes ut. 2. Röstinspelningarna bedömdes perceptuellt. 3. Samma röstinspelningar bedömdes också med hjälp av korrelogram. 4. En jämförelse av de olika bedömningarna gjordes och statistik räknades. 5. Grundtonsanalys med hjälp av F0x-program i SoundSwell gjordes på samtliga inspelningar. 3.1 Urval av röster Röstinspelningarna i studien valdes ut från röstarkivet vid Talkliniken, Karolinska universitetssjukhuset Huddinge. I röstarkivet finns patienterna inspelade på DAT-band fram till hösten 2002. Därefter började man göra inspelningarna på dator istället. Vi valde att utesluta DATbanden pga. tidsbrist och att det skulle bli ett alltför stort material att gå igenom. Röstinspelningarna 11

utgjordes av texten Ett svårt fall som används rutinmässigt på Talkliniken. Samtliga datorinspelningar av patienter i åldrarna 20-70 år med diagnoserna reinkeödem, recurrenspares, stämbandsknottror och kronisk laryngit, som blivit inspelade vid minst två tillfällen, lyssnades igenom av författarna. Uppläsningar på andra språk än svenska samt inspelningar av patienter som förutom någon av ovanstående diagnoser även hade diagnosen dysartri uteslöts. Både kvinnor och män ingick i urvalet. Urvalet baserades främst på att man kunde höra en tydlig förbättring i röstkvalitet mellan de olika inspelningarna. Hädanefter benämns de som första-inspelningarna respektive andra-inspelningarna. Eftersom vi inte har tagit del av journalhandlingar vet vi inte vad patienterna genomgått mellan inspelningarna. Troligt är att många genomgått röstterapi och att ett mindre antal har opererats. Röstinspelningarna som valdes ut bedömdes ha varierande grad av skrovel, skrap, knarr och/eller diplofoni. Tjugotre patienter och således 46 inspelningar ingick i studien. Antal patienter med respektive diagnos samt könsfördelning framgår av tabell 1. Tabell 1: Diagnos och kön hos de 23 patienter som valdes ut för att ingå i studien. Män Kvinnor Recurrenspares 1 1 Kronisk laryngit 7 2 Reinkeödem 1 3 Stämbandsknottror 0 8 Summa 9 14 Röstinspelningarna överfördes från röstarkivet till SoundSwell (version 3.5). Inspelningarna avidentifierades och kodades med nummer innan de lades över på en CD. 3.2 Den perceptuella bedömningen Den perceptuella bedömningen av röstinspelningarna gjordes i tre steg. Steg 1. Vi lyssnade tillsammans med en av handledarna (BH) igenom rösterna och plockade ut de mest framträdande parametrar som rösten innehöll. Först spelades första-inspelningen (hela texten) för en patient upp och sedan spelades andra-inspelningen (hela texten) för samma patient upp. Efter detta spelades första-inspelningen (hela texten) upp igen innan första bedömningen gjordes. Vi diskuterade med handledaren kring vilka parametrar som förekom i hög grad i rösten. Steg 2. Efter den första bedömningen tillsammans med handledaren gjorde vi varsin bedömning av röstinspelningarna både med SVEA-protokollet (Hammarberg 2000 a) och med ytterligare ett röstbedömningsprotokoll (se nedan) av de mest framträdande parametrarna samt satte ut tidsangivelser från inspelningen då någon röstparameter var speciellt framträdande. Vi lyssnade först på första-inspelningen (hela texten) för en patient och sedan på andra-inspelningen (hela texten) för samma patient. Efter detta lyssnade vi på första-inspelningen (hela texten) igen innan första bedömningen gjordes. Vi lyssnade på varje röst så många gånger som vi ansåg nödvändigt. Steg 3. Slutligen gjordes ännu en enskild bedömning, varvid även mindre framträdande parametrar på SVEA-protokollet bedömdes. Detta gjordes för att varje röst skulle beskrivas så specifikt som möjligt. Vi lyssnade först på första-inspelningen (hela texten) för en patient och sedan på andrainspelningen (hela texten) för samma patient. Därefter lyssnade vi på första-inspelningen (hela texten) igen innan första bedömningen gjordes. Vi lyssnade på varje röst så många gånger som vi ansåg nödvändigt. 3.2.1 Röstbedömningsprotokollen Röstbedömningsprotokollet SVEA med 13 parametrar (Granqvist & Hammarberg 2000) och ett mer omfattande röstbedömningsprotokoll (Hammarberg 1986) användes vid den perceptuella analysen. På SVEA-protokollet fanns från början 13 parametrar att bedöma: Afoni/Intermittent afoni, läckande, 12

hyperfunktionell/pressad, hypofunktionell, knarr, hårda ansatser, skrovlig, skrap, instabil klang/taltonläge, registerbrott,diplofoni, register, taltonläge. Parametrarna hårda ansatser och register togs dock bort eftersom de inte ansågs relevanta för studien. 11 parametrar kvarstod (Bilaga 2). Parametrarna skattades på en 100 mm lång visuell analog skala (VA-skala). Ändpunkterna motsvarades av avsaknad av samt hög grad av. Parametern taltonläge skattades på en 160 mm VAskala och ändpunkterna motsvarades av lågt och högt. Ett mer omfattande röstbedömningsprotokoll med 26 parametrar (Hammarberg 1986) användes endast i steg 2. Skattningen bestod i att ta ställning till i vilken grad parametern förekom i rösten: inte alls, litet, måttligt, ganska mycket samt mycket genomgående. Detta formulär användes eftersom det innehåller fler parametrar än SVEA-protokollet. Det framkom efter att båda formulären använts att de extra parametrarna inte tillförde någon ytterligare information, utan att de parametrar som finns på SVEA-protokollet var tillräckliga för att bedöma de röster som ingick i studien. 3.2.2 Definitioner av röstbedömningsparametrar Afoni. Avsaknad av fonation, dvs. tonlöst viskande eller total avsaknad av röst. Läckande. Hörbart luftläckage genom glottis beroende på otillräcklig stämbandsslutning. Hyperfunktionell/pressad. Ansträngd fonation som om stämläpparna och larynxtuben pressas samman under fonation. Hypofunktionell. Motsats till pressad/hyperfunktionell: För lite spänning i stämläpparna vilket ger en läckande, svag och slapp röst. Knarr. Långsam periodisk vibration som utmärks av långa stämbandsslutningar och korta öppningar. Skrovlig. Lågfrekvent aperiodiskt buller/brus i fonationen, troligen pga. oregelbundna stämläppssvängningar. Skrap. Högfrekvent aperiodiskt brus i fonationen, troligen pga. oregelbundna stämläppssvängningar. Instabil klang/taltonläge. Rösten ligger mestadels i bröstregistret, men det finns en tendens till växling över åt falsettregister. Registerbrott. Intermittenta plötsliga växlingar mellan registren, vanligen från bröstregister upp i falsettregistret, tupp i halsen. Diplofoni. Låter som två olika grundtoner. Taltonläge. Röstläget som bestäms av stämläpparnas svängningshastighet och akustiskt motsvaras av grundtonen. (Definitionerna efter B Hammarberg) 3.3 Bedömningen med korrelogram Vi slumpade ordningen på röstinspelningarna i Excel 2002 och lade över dem på en CD. Bedömare av korrelogrammen var SG, den som konstruerat programvaran för korrelogrammet (en av våra handledare). Bedömningen utfördes genom att bedömaren gjorde en visuell analys av korrelogram för varje röstinspelning och fyllde i ett testformulär för vad som kan ses i ett korrelogram (se Bilaga 1). På ett tidigt stadie i bedömningens gång upptäcktes att parametern sidband behövdes på formuläret varvid denna lades till och bedömdes hos samtliga röster. Bedömaren fick information om att det var texten Ett svårt fall som lästs in men han fick inte lyssna på inspelningen. Han gjorde 13

analys av hela texten. Vi satt med under testet i syfte att skapa en övervakad testsituation samt i inlärningssyfte. Samtliga bedömningar gjordes vid samma tillfälle för att förhindra att tidsaspekten skulle orsaka variation i bedömningarna. Det resonerades under testets gång kring att det skulle vara bra att även lägga till parametern monotonicitet som komplement till grundtonsinstabilitet. I korrelogrammet kunde man se om grundtonen låg stilla som den gör i en monoton röst eller om den rörde sig upp och ner i frekvens. När den rörde sig upp och ner i frekvens var det svårt att säga om det rörde sig om naturlig prosodi eller grundtonsinstabilitet. Monotonicitet lades dock inte till i protokollet. 3.3.1 Korrelogrambedömningsprotokollet Författarna konstruerade ett formulär i samråd med handledarna (Testformulär för vad som kan ses i ett korrelogram, Bilaga 1) som skulle användas vid bedömningen av korrelogrammen. På protokollet fanns åtta parametrar: Kandidatbredd, multicyklicitet, kaos, grundtonsinstabilitet, grundtonläge, fonationsavbrott, registerbrott och sidband. Alla parametrar förutom grundtonläge skattades på en 100 mm lång VA-skala. Grundtonläget angavs som frekvens i hertz. Vid förekomst av fonationsavbrott, registerbrott och multicyklicitet sattes märken i swell-filen så att det skulle bli tydligt dels hur många gånger och dels vid vilken tidpunkt i inspelningen parametrarna förekom. 3.3.2 Definitioner av korrelogrambedömningsparametrarna Kaos förekommer när det är oreda bland kandidaterna. Detta syns i figur 2. Kandidatbredd är den bredd som de möjliga grundtonskandidaterna har. De kan vara breda eller smala. I figur 2 syns en bred första-kandidat och i figur 4 syns smala kandidater. h a n r a m l a d e i m e h u v e Figur 2: Bild av korrelogram med bred första-kandidat där kaos förekommer i stor grad från 0,1 s till 1 s. 14

Multicyklicitet visar på en oregelbundenhet i rösten där första kandidaten hoppar upp och ner medan den andra kandidaten ligger stabil. Detta syns tydligt i figur 3 (5,75 s 5,95 s). p i r e r a n Figur 3: Bild av korrelogram där multicyklicitet (se pil) förekommer från 5,75 s till 5,95 s. Sidband är tecken på en välexciterad första formant och syns i figur 4 som svagt gråa ränder mellan och ovanför kandidaterna. b r o r Figur 4: Bild av korrelogram med smala kandidater och sidband (se pilar). 15

Registerbrott innebär hopp från ett register till ett annat. Detta visas i figur 5. r a m l a d e i Figur 5: Bild av korrelogram där registerbrott förekommer (se pilar). Grundtonsinstabilitet innebär att grundtonskandidaten inte ligger stabil i korrelogrammet. Fonationsavbrott syns som ett avbrott i korrelogrammet. Detta är svårbedömt. I korrelogrammet kan man blanda ihop fonationsavbrott och andningspaus, om man inte samtidigt lyssnar på signalen. 3.4 Grundtonsanalys med histogram Grundtonsanalys av samtliga inspelningar gjordes med hjälp av F0x-program i SoundSwell. 3.5 Statistisk bearbetning Värdena från SVEA-bedömningarna och korrelogrambedömningarna lades in i Excel 2002 för Windows. De statistiska beräkningarna utfördes i SPSS (Statistical Package for the Social Sciences). Vid uträkningen av interbedömarreliabiliteten, korrelation mellan SVEA- och korrelogramparametrarna samt mellan korrelogramparametrarna sinsemellan användes Spearmans rangkorrelationskoefficient eftersom värdena var snedfördelade. För att avgöra om det fanns en statistiskt säkerställd skillnad mellan första-inspelningar och andrainspelningar gjordes ett Wilcoxon-test. Korrelation mellan grundtonsvärden för män respektive kvinnor i F0x-program i SoundSwell och SVEA-bedömningarna, mellan F0x-program i SoundSwell och korrelogram samt mellan SVEA-bedömningarna och korrelogram beräknades i Excel. Under testet med korrelogram angav bedömaren dubbla grundtonsfrekvenser vid två olika röstinspelningar. Vid uträkningen var vi tvungna att ha endast ett värde på varje inspelning för grundtonsfrekvens. Pga. detta räknades ett medelvärde ut för grundtonsfrekvensen hos respektive inspelningar som det gällde (detta gällde för två av röstinspelningarna). 16

3.6 Forskningsetiska överväganden Inspelningarna avidentifierades och kodnyckeln låstes in på Talkliniken, Karolinska universitetssjukhuset Huddinge. Inga patienter spelades in eller behandlades inom projektet eftersom inspelningarna och behandlingarna redan var gjorda. Det är osannolikt att en patient kommer att kunna identifieras av någon som läser studien eftersom han/hon har valts ut efter diagnos och röstkvalitet och enbart beskrivs med kön i uppsatsen. Svante Granqvist som utförde korrelogrambedömningarna fick aldrig lyssna på rösterna. Författarna till studien har tystnadsplikt. Inga journaltexter lästes. Med anledning av detta utgick ingen förfrågan till berörda patienter. 4.0 RESULTAT 4.1 Interbedömarreliabilitet för SVEA-bedömningarna Värdena från de två bedömarnas (författarnas) auditiva perceptuella bedömningar (SVEA-värdena) korrelerades med varandra med hjälp av Spearmans rangkorrelationskoefficient för att mäta interbedömarreliabiliteten. Första-inspelningarna, andra-inspelningarna respektive samtliga inspelningar korrelerades var för sig, se tabell 2. Tabell 2: Korrelation mellan de två bedömarnas värden för första-inspelningarna (n=23), andra-inspelningarna (n=23) respektive samtliga inspelningar (n=46). Parametrar Inspelningar Spearmans rangkorrelationskoefficient (r) Första.820(**) Afoni Andra - Samtliga.694(**) Första.547(**) Läckande Andra.617(**) Samtliga.692(**) Första.623(**) Hyperfunktionell Andra.435(*) Samtliga.537(**) Första.377 Hypofunktionell Andra.307 Samtliga.370(*) Första.529(**) Knarr Andra.491(*) Samtliga.539(**) Första.582(**) Skrovlig Andra.552(**) Samtliga.559(**) Första.734(**) Skrap Andra.734(**) Samtliga.752(**) Första.441(*) Instabil klang/taltonläge Andra.582(**) Samtliga.587(**) Första.351 Registerbrott Andra.657(**) Samtliga.350(*) Första - 17

Diplofoni Andra - Samtliga - Första.848(**) Taltonläge Andra.395 (**) p<.01. (*) p<.05. Samtliga.665(**) Som framgår av tabell 2 var interbedömarreliabiliteten god. Genomsnittliga korrelationskoeficienten där signifikans uppnåddes var.597. Signifikanta samband förelåg mellan de båda bedömarnas skattning av de allra flesta av parametrarna. Vad gäller hypofunktionell var sambandet signifikant bara för samtliga inspelningar men inte för första-inspelningarna respektive andra-inspelningarna var för sig. För parametrarna diplofoni och för afoni andra inspelningen kunde inga korrelationer beräknas eftersom SVEA-värdena mestadels bestod av nollor. 4.2 Jämförelse av grundtonsfrekvensbedömningar Grundtonsanalys gjordes med hjälp av F0x- och hist- programmen i SoundSwell för att jämföra värdena för korrelogramparametern grundtonläge med. Resultatet av de tre typerna av grundtonsfrekvensbedömning dvs. korrelogram, F0x i SoundSwell och auditiv perceptuell analys (SVEA-bedömningarna av taltonläge) redovisas i tabell 3. Tabell 3: Grundtonsfrekvens uppmätt med hjälp av histogram, uppskattad med hjälp av korrelogram respektive taltonläge uppfattat auditivt ( SVEA-bedömningarna). a=första inspelningen. b=andra inspelningen. Inspelningar Histogram (Hz) Korrelogram (Hz) Auditiv perceptuell analys (100 mm VA-skala) 1a kvinna 228 210 57,5 1b 194 180 49,4 2a man 165 170 70,6 2b 157 150 57,2 3a kvinna 207 210 27,8 3b 244 240 43,4 4a kvinna 240 250 77,5 4b 187 170 51,9 5a kvinna 205 170 43,1 5b 175 170 48,8 6a man 153 150 51,3 6b 168 170 49,4 7a man 153 150 67,8 7b 124 120 49,4 8a man 130 130 28,8 8b 150 140 49,4 9a man 102 90 31,3 9b 94 95 43,1 10a man 113 105 45,0 10b 113 95 49,7 11a man 100 95 43,8 11b 92 90 38,8 12a man 165 160 65,6 12b 137 130 48,8 13a kvinna 247 240 84,4 13b 166 160 47,5 18

14a kvinna 159 270 44,4 14b 120 120 20,3 15a man 108 110 34,7 15b 115 110 47,8 16a kvinna 220 200 50,6 16b 178 180 46,9 17a kvinna 217 210 49,7 17b 187 180 48,4 18a kvinna 223 210 65,6 18b 230 200 50,0 19a kvinna 182 170 52,8 19b 215 225 53,1 20a kvinna 186 200 60,3 20b 190 200 49,4 21a kvinna 195 250 55,0 21b 209 180 50,0 22a kvinna 183 170 47,5 22b 206 180 53,8 23a kvinna 157 170 47,2 23b 205 220 49,4 Som framgår av tabell 3 ligger F0-värdena från histogrammätningen och korrelogrammen i de flesta fall nära varandra med en differens på <10 Hz. I några fall skiljer de sig mera, inspelningarna 5a, 14a och 21a, samtliga kvinnor, första-inspelningar. Korrelogram av dessa tre inspelningar har analyserats av författarna. Vid denna analys framkom att F0 hos inspelning 5a ofta låg kring 170 Hz men det fanns täta toppar på upp till 250 Hz. Dessa toppar drar upp det genomsnittliga F0-värdet som uppmättes i F0x i SoundSwell. Inspelning 14a var genomgående afonisk dvs. saknade grundton. Korrelogrammet visade en första kandidat som låg kring 270 Hz. Andra kandidaten som låg kring 140 Hz kan ha påverkat det genomsnittliga grundtonsvärde som uppmättes i F0x i SoundSwell. I analysen av inspelning 21a kunde man se att första kandidaten varierade mellan 161 Hz och 323 Hz. Både korrelogrambedömningen och det genomsnittliga grundtonsvärde som uppmättes i F0x i SoundSwell ligger inom detta spann. I punktsvärmsdiagrammen i figur 6-8 redovisas sambanden mellan de olika F0-mätningarna respektive skattning av taltonläge. Trendlinjer är utritade. Inspelningar som ligger nära trendlinjen skiljer sig mindre åt i de två bedömningar som jämförs än inspelningar som ligger längre ifrån trendlinjen. 19

Korrelationen mellan korrelogrambedömningarna och histogrambedömningarna åskådliggörs i figur 6. För denna korrelation hos kvinnor är r=.588 För män är r=.981. I figuren ser man att det finns tre (se ovan) inspelningar av kvinnor som avviker mer från regressionslinjen än övriga inspelningar, vilket gör att r får ett lägre värde. Figur 6: Jämförelse mellan histogrambedömningarna och korrelogrambedömningarna. 20

Korrelationen mellan korrelogrambedömningarna och SVEA-bedömningarna illustreras i figur 7. För denna korrelation hos kvinnor är r=.486. För män är r=.689. Korrelogramvärdena anges med enheten Hz och SVEA-bedömningarna med enheten mm VA-skala. Figur 7: Jämförelse mellan SVEA-bedömningarna och korrelogrambedömningarna. 21

SVEA-bedömningarna jämförs med histogrambedömningarna i figur 8. Histogramvärdena anges med enheten Hz och SVEA-bedömningarna med enheten mm VA-skala. För denna korrelation hos kvinnor är r=.603. För män är r=.712. Figur 8: Jämförelse mellan SVEA-bedömningarna och histogrambedömningarna. Vid korrelogrambedömningen uppskattades att grundtonläget hos två av de inspelade rösterna utgjordes av två frekvenser. Dessa två röster tillhörde andra-inspelningarna och enligt auditiv perceptuell bedömning hade båda rösterna ett normalt taltonläge. 4.3 SVEA-värdena korrelerade med korrelogrambedömningarnas värden Medelvärdena från SVEA-bedömningarna korrelerades med värdena från korrelogrambedömningarna med hjälp av Spearmans rangkorrelationskoefficient för vardera förstainspelningarna, andra-inspelningarna och samtliga inspelningar. Resultaten av dessa beräkningar redovisas i tabell 4. 22

Tabell 4: Korrelation mellan SVEA-bedömningarna och korrelogrambedömningarna för första-inspelningarna (n=23), andra-inspelningarna (n=23) och samtliga inspelningar (n=46). Kandidatbredd Multicyklicitet Kaos Grundtonsinstabilitet Fonationsavbrott Registerbrott Sidband Grundtonläge Första.529(**) -.048.099.054.283 -.106 -.035.091 Afoni Andra -.033 -.061 -.008.022 -.082.105.042 -.334 Samtliga.349(*) -.030.034.036.206 '-.033 -.029 -.006 Första.255 -.327 -.266 -.199.143 -.531(**) -.190 -.219 Läckande Andra.317 -.020.108 -.180.163 -.268 -.335 -.262 Samtliga.335(*) -.095 -.129 -.127.168 -.337(*) -.272 -.127 Första.014 -.140.325.265.630(**).127 -.029.241 Hyperfunktionell Andra.080 -.149 -.093 -.187 -.138 -.083.037 -.080 Samtliga.043 -.158.076.042.362(*) -.004.006.111 Första.054.042 -.390 -.280 -.446(*) -.187 -.101 -.239 Hypofunktionell Andra.194.056.144 -.257.316 -.339 -.247 -.226 Samtliga.198.056 -.201 -.248 -.160 -.280 -.226 -.148 Första.756(**).193 -.103.011 -.321.195.214 -.263 Knarr Andra.564(**).397.502(*).004.193 -.202.524(*) -.436(*) Samtliga -.619(*).291.246.052 -.095 -.003.320(*) -.314(*) Första -.357 -.141 -.104 -.154 -.374 -.083.150 -.400 Skrovlig Andra.071.140.248 -.254.260 -.258 -.081.600(**) Samtliga -.069.020.063 -.171 -.028 -.189 -.086 -.443(**) Första.157.251.136 -.054 -.058.306.338.502(*) Skrap Andra -0.018.275.300 -.099.196 -.414(*).128.198 Samtliga.107.238.130 -.054.038 -.064.194.382 Första.253 -.092.257.099.079.012.161.126 Instabil klang/taltonläge Andra.082.191.299 -.261.366 -.288.014 -.206 Samtliga.238.086.169 -.054.251 -.162.006.116 Första.468(*).054.131.193.165.101 -.165 -.007 Registerbrott Andra.237.183.112 -.200.657(**) -.161 -.249.000 Samtliga.422(**).105.088.068.338(*) -.019 -.195.045 Första -.061 -.064.129.100 -.119 -.119 -.304 -.356 Diplofoni Andra - - - - - - - - Samtliga.012 -.046.102.103 -.066 -.097 -.253 -.235 Första.211 -.163 -.033 -.055.223.190.328.421(*) Taltonläge Andra.130.077 -.161.281 -.081.324 -.193.361 Samtliga.172 -.025 -.113.020.125.154.202.409 (**) p<.01. (*) p<.05. 23