Örat. Johnson, Kap 3. Basic audition

Det här kapitlet handlar om det man brukar kalla det perifera hörselsystemet och lite om hur processningen på den nivån ser ut och vilka skalor som bäst kan beskriva detta. Så låt oss då först bara påminna oss om vad det är som räknas till det perifera hörselsystemet. Till detta ska också läggas kopplingarna till hörselnerven. Den analys som görs i det perifera hörselsystemet avser främst tonhöjd och ljudstyrka. Durationen är ju också en viktigt lingvistisk faktor och information om den måste förstås också tas in genom hörseln, men såvitt jag vet sker ingen processning av duration på denna nivå. Det mått på tryck (då även ljudtryck förstås) som används i fysiken är Pascal (Pa). Det måttet kan man förstås använda även för att beskriva hörseln. Men dels blir det en skala med väldigt stor omfattning och dels speglar ljudtrycket i Pa inte uppfattad ljudstyrka särskilt väl. Speciellt gäller detta den uppfattade förändringen i ljudstyrka. En ökning av ljudstyrkan med, säg 100 μpa (mikropascal) nära hörseltröskeln innebär en mycket påtaglig ökning medan motsvarande ökning vid en nivå som motsvarar normalt samtal inte är uppfattbar. Den skala man istället använder är en logaritmisk skala, decibelskalan.

Typical experience Absolute threshold Faint whisper Quiet ofice Conversation City bus Subway train Loud thunder Pain and damage Pressure (μpa) 20 200 2,000 20,000 200,000 2,000,000 20,000,000 200,000,000 SPL (db) 0 20 40 60 80 100 120 140 Nu är det förstås inte alls med nödvändighet så att en decibelskala motsvarar uppfattad ljudstyrka bättre än en linjär skala, men det har i olika perceptionstest visat sig att det gör den. En ökning av ljudstyrkan med, säg, 3 db uppfattas som lika stor oavsett var på skalan den sker. En annan skala som man kan se ibland är den som utrycks i Sones. Den har man tagit fram på så sätt att lyssnare fått höra ett referensljud och sedan fått i uppgift att ställa in ett annat ljud så att det subjektivt låter dubbelt så starkt eller hälften så starkt. En jämförelse mellan Sones, db och μpa. Det ser ut att vara en dramatisk skillnad mellan Sones och db men det är en synvilla som orsakas av sättet att göra diagrammet. I allt väsentligt uttrycker de bägge skalorna samma sak. Vi vet ju att hörseltröskeln är beroende på frekvensen på så sätt att känsligheten är lägre både för låga och för höga frekvenser. Smärtgränsen däremot ligger på ungefär samma nivå över hela det uppfattbara frekvensområdet. Det betyder att den subjektiva ljudstyrkeskalan är komprimerad i både den låga och den höga delen av frekvensskalan jämfört med den i mitten.

Man kan illustrera också detta i diagramform i ett s.k.fletcher-munson diagram. Ett sådant diagram konstrueras genom att lyssnare får höra en referenston på 1000 Hz och en ton på en annan frekvens vars ljudstyrka kan varieras. Uppgiften är att ställa in denna tons styrka så att den är subjektivt lika stark som referensen. Detta upprepas för olika ljudstyrka för referensen, vanligen i 10 db steg. Det här diagrammet visar en typisk sådan kurva. Här har referenstonen (på 1000 Hz) legat 60 db över hörseltröskeln vid den frekvensen. Et fullständigt Fletcher-Munson diagram Många stereoförstärkare har en inställning som kallas loudness. Denna innebär att ett variabelt filter kopplas in som kompenserar för örats varierande känslighet vid olika frekvenser och gör så att frekvensgången blir subjektivt rak. Det man annars lätt märker om man spelar musik på låg nivå är att basen försvinner.

För subjektiv tonhöjd gäller likartade samband som de för subjektiv ljudstyrka. Den fysiska skalan Hertz (Hz) skalan beskriver inte upplevd tonhöjd särskilt bra, speciellt inte upplevd förändring av tonhöjden. Förhållandet är i princip detsamma som för ljudstyrka, en förändring på 10 Hz vid 100 Hz nivån är betydande (c:a 2 musikaliska halvtoner), medan samma förändring i Hz vid 1000 Hz upplevs som ganska liten (0.17 halvtoner). Den skala som förefaller att bäst beskriva subjektiv tonhöjd är den musikaliska skalan. En förändring på 2 halvtoner uppfattas som lika stor oavsett var på frekvensskalan vi befinner oss. Det är emellertid svårt att säga i hur hög grad vi är påverkade av den musikaliska skalan. Att halvtonsskalan passar så bra skulle åtminstone delvis kunna vara resultatet av att vi tränats på den musikaliska skalan. För att beskriva avstånd mellan komplexa toner passar Barkskalan bäst. Barkskalan bygger på basilarmembranets tonotopiska organisation. Så låt oss snabbt påminna oss hur det såg ut. Här ser vi en schematisk bild av hur trycket fortplantas genom vätskan och hur runda fönstret fungerar som en volymshunt.

ovala fönstret Basilarmembranets dimensioner längd ung. 32 mm Apex Bredd 0.04 mm bredd 0.5 mm Tjockleken är i genomsnitt ungefär 0.01 mm, något tjockare vid basen (ovala fönstret) och tunnare vid Apex Här två bilder av basilarmembranet som visar tryckvågens utbredning (t.v.) och membranets tonotopiska organisation (t.h.). Jag återkommer till det senare lite längre fram. ovala fönstret Apex Tryckvågen breder alltså ut sig längs basilarmembranet, men hur långt den kommer beror på ljudets frekvensegenskaper. Den högra bilden simulerar vågens utbredning för ett högfrekvent ljud och den vänstra för ett lågfrekvent. Observera att basilarmembranets bredd är starkt överdrivet för att man ska se vågens form tydligare. Den här schematiska bilden visar den tonotopiska organisationen från ovala fönstret till Apex. De högsta frekvenserna registreras vid ovala fönstret och de lägsta vid Apex. Apex ovala fönstret Det som bestämmer vilka celler som reagerar och därmed vilken frekvens som registreras beror på hur långt vågen längs basilarmembranet når och detta bestäms, som vi tidigare såg, av ljudets frekvens.

ovala fönstret Vågrörelsens fördelning efter frekvens Högfrekvent våg når bara en kort bit... längd ung. 32 mm medelhöga till mittendelen av membranet Apex och vågen efter låga frekvenser når fram till nära Apex En i fonetiken mycket viktig frekvensskala, Bark-skalan, bygger på innerörats tonotopiska organisation. Skalan delar in frekvensområdet i lika stora steg längs basilarmembranet. Det har visat sig att Barkskalans steg mycket väl stämmer överens med hur vi uppfattar frekvensen av komplexa ljud. Hur stort steg är en Bark rent subjektivt? Här har jag gjort en simulering där jag ändrat F 1 i steg om 1 Bark från [u] till [i] i det ena fallet och [u] till [ ] i det andra. Jämför man stegen på Hertz-skalan med dem på Bark-skalan så ser man att Bark-skalans steg är tätare vid högre frekvenser. Et avstånd på 1000 Hz i början av skalan motsvara 8 Bark, men mellan 2000 och 3000 Hz är motsvarande avstånd i Bark bara 2 Bark.

Det är viktigt att hålla i minnet att Bark-skalan beskriver hörseln. Det betyder bl.a. att skillnaden mellan hur vi representerar ljuden akustiskt och hur de representeras i hörselsystemet kan vara rätt betydande. Den illustration som finns i boken ger en liten tankeställare. Det som i det akustiska spektrumet är två mycket spetsiga kurvor (ljud med liten bandbredd) representeras i hörselsystemet av ganska trubbiga. Åtminstone gäller detta för representationen i basilarmembranet. Notera att den andra toppen är något bredare än den första fast de borde vara lika breda. En viss utsmetning av frekvenserna verkar ha skett. En annan observation man genast gör är att spektrum delas in på olika sätt i det akustiska spektrumet och det auditiva. I det auditiva spektrumet upptar frekvenser upp till 1500 Hz ungefär halva spektrumet. Det betyder att frekvensupplösningen är bättre för de lägre frekvenserna. Man kan alltså vänta sig att den inte är så bra i det övre registret. Man kan t.ex. fundera över hur frekvensupplösningen ser ut för ljud där informationen fram för allt ligger i det översta registret. Klickljud är ett sådant exempel. Nästa diagram visar spektra på en linjär Hz skala och en Barkskala. Vi kan tydligt se hur upplösningen på de högre frekvenserna är lägre för Bark-skalan.

En skala som kan vara värd att nämna, men som inte nämns i boken är mel-skalan. Det är en subjektivt framtagen skala där lyssnare fått bedöma olika intervall som lika eller olika. Ett annat sätt är att ställa in en ton så att den uppfattas som hälften så hög eller dubbelt så hög som en referenston. Skalan har fram för allt ett historiskt intresse eftersom den var den första (1940) experimentellt framtagna skalan av denna typ. Vi kan se att de relativt skarpa topparna i den akustiska analysen i det vänstra diagrammet är kraftigt utsmetade i det mer hörselriktiga högra. Ett sätt att tolka detta är att de finare akustiska detaljerna inte är viktiga för förmågan att uppfatta den fonologiska distinktionen. Melskalan är baserad på bedömningar av rena toner (sinustoner). Om man jämför den med den musikaliska skalan så är oktaverna större men inte med en konstant faktor utan oktavstorleken ökar med ökande frekvens. Meloktaven 100 mel till 200 mel motsvarar 65 136 Hz vilket är nästan detsamma som en oktav (en knapp halvton mer). Meloktaven 1000 mel till 2000 mel motsvarar däremot 1000 3430 Hz vilket är detsamma som 1.78 musikaliska oktaver. Nå hur låter det då? Här ett exempel på en serie toner i en fallande skala med lika avstånd i mel.

Med tanke på hur melskalan tagits fram och att den baserar sig på perception av rena toner skulle man tro att den inte har några större likheter med Bark-skalan. Men det har den och tänker man lite närmare på saken så är det kanske inte så överraskande om bägge har något samband med basilarmembranets tonotopiska organisation. Nu är de bägge skalorna inte identiska, men de skiljer sig inte heller åt på något mer dramatiskt sätt. Nästa diagram ger en uppfattning om skillnader och likheter. Melskalan som funktion av den linjära Herz-skalan. 2500 mel 2000 1500 1000 500 0 0 5 10 15 20 Bark Bland annat likheten med Bark-skalan har gjort att melskalan är ganska vanligt förekommande i talteknologiska sammanhang. Cepstrum-koefficienter som används för spektrala jämförelser i t.ex. taligenkänning bygger ofta på melskalan. Då så sker kallas koefficienterna för melcepstrum koefficienter. En bild av förhållandet mellan Bark och mel. Avvikelsen från proportionalitet (heldragen linje) är inte så stor.