Talkommunikationskedjan Akustisk fonetik I den första förläsningen talade vi om talkommunikationskedjan, alltså den serie av händelser som börjar med en tanke i en talares huvud och slutar med en tolkning i mottagarens. Idag ska det handla om mittenbiten i den kedjan, dvs den signal som bär informationen från talare till lyssnare och mer specifikt om den signalens fysiska egenskaper. Låt oss först påminna oss hur den kedjan såg ut. Talkommunikationskedjan Akustisk fonetik Akustiska elementa Vi ska prata om ljudvågor, enkla och komplexa, och om ljudets egenskaper frekvens, amplitud och duration. Vi ska prata något om analysmetoder och speciellt då sådana som är relevanta för talanalys. Vi ska också något beröra den akustiska modell för talproduktion som brukar kallas källa-filtermodellen. Innan jag går in på några teknikaliteter vill jag först avfärda några vanliga fördomar och missförstånd. När vi talar om ljud beskriver vi ofta ljudet som ljudvågor och när vi studerar vissa av ljudets egenskaper som tex. ljudstyrkevariationen ser det i våra analysprogram onekligen ut som vågor. För en fysiker är det också högst relevant att tala om vågrörelser för många av de matematiska modeller fysikern använder är hämtade från vågrörelseläran. Men för lekmannen ger det felaktiga associationer av vågor på ett böljande hav och så fungerar det inte riktigt. Däremot kan man använda vågmetaforen för att påminna sig om hur pass stor påverkan ljudet har på det omgivande lufttrycket (för ljud är ju just förknippade med lokala förändringar i lufttrycket). Om vi då liknar dessa förändringar vid krusningar på ytan av ett hav eller en djup sjö så har vi åtminstone proportionerna klara för oss.
Om ni läser om akustik i läroböcker i fonetik eller hör lingvister tala om det kommer ni nästan alltid att få veta att luften är ett elastiskt medium där luftmolekylerna står och dallrar kring sina jämviktslägen, som en gelepudding ungefär. Ur pedagogikhistorisk synpunkt vore det intressant att veta var detta fullkomliga nonsens har sitt ursprung, men jag har inget bra svar på det. Däremot har jag ett (hyfsat) bra svar på hur det egentligen förhåller sig och det får duga just nu. Det stämmer (relativt) väl att molekylerna darrar runt sina jämviktslägen i ämnen i fast tillstånd. Skulle vi föra ett samtal inneslutna i ett stycke fast järn så stämmer jämviktslägesmetaforen någorlunda väl. Men eftersom detta är en ganska ovanlig kommunikativ situation ska jag inte närmare beskriva dess villkor. I ämnen i vätskeform eller gasform rör sig emellertid molekylerna slumpmässigt om varandra. I en gas, tex. luft, far molekylerna omkring med en medelhastighet på några hundra meter per sekund*. De är för långt från varandra för att det ska uppstå några attraktionskrafter mellan dem. Den enda växelverkan mellan molekyler som förkommer är att de hela tiden krockar med varandra. * Medelhastigheten vid rumstemperatur är ungefär 500 m/s I fysiken beskrivs krockarna som elastiska stötar, men elastisk stöt betyder här enbart att krockarna sker utan förlust av energi. (Kanske är det ur detta språkbruk som missuppfattningen om luften som elastisk kommer.) Det finns experimentella metoder för att studera hur molekylerna rör sig i en gas och skulle man rita ut en enskild molekyls bana under någon sekund kunde det se ut på följande vis. Aerodynamik mm Aerodynamik mm Brownsk rörelse Situationen är med andra ord rätt kaotisk. Ungefär som animationen på nästa bild ger intryck av. Efter några sekunder Efter ytterligare några
Aerodynamik mm Hur kan nu ljudet fortplantas genom ett så kaotiskt medium? Jo, ljud uppstår ju när något vibrerar i luften. För att våra öron ska uppfatta det som ljud måste det vibrera inom ett visst frekvensområde, men det är en annan historia. När luftmolekyler träffar ett föremål studsar de förstås tillbaka. Om föremålet står stilla händer inget annat än att molekylen ändrar riktning. Hastigheten blir densamma om vi förutsätter att krocken är elastisk. Men om molekylerna träffar en yta som rör sig kommer de att få en ökad hastighet efter studsen om ytan rör sig mot dem och en minskad om den rör sig från dem. Den skillnaden i rörelsehastighet fortplantar sig genom mediet när molekylen sedan krockar med andra molekyler och då överför större eller mindre energi beroende hur det vibrerande föremålet rörde sig vid träffen (mot molekylen eller från molekylen). Eftersom lufttrycket är direkt proportionellt mot molekylernas rörelsehastighet kan man alltså se det som så att det är lufttrycksförändringar som breder ut sig i luften. I en gas är ljudets utbredningshastighet beroende av molekylernas medelhastighet. Som vi redan nämnt är molekylernas medelhastighet beroende på temperaturen. I rumstemperatur vid normalt lufttryck är medelhastigheten ungefär 500 m/s. Ljudets utbredningshastighet i luft är 68% av molekylernas medelhastighet, dvs. 340 m/s vid rumstemperatur. I talorganen har luften en temperatur som ligger nära kroppstemperaturen. Där blir ljudhastigheten därför något högre; 354 m/s om vi räknar med 37. Ljudets utbredningshastighet beror alltså på molekylernas medelhastighet. Beror den också på något annat, tex. lufttrycket eller luftfuktigheten? Ja, är det exakta svaret, men inverkan är så obetydlig att man i de flesta sammanhang helt kan bortse från den.
Om vi börjar med lufttrycket så kan vi konstatera att om vi klättrar upp på Jordens högsta berg där lufttrycket är 75% av det vid havsytan så är lufttryckets påverkan på ljudhastigheten inte mer än ungefär 1 cm/s. Inte mycket att bråka om 1). I en tryckkammare med 5 atmosfärers övertryck är ljudhastigheten c:a 25 cm/s högre. Även det kan vi nog leva med utan några större praktiska konsekvenser. 1) Vi förutsätter då att temperaturen är 20 C Ljudhastigheten i vatten är betydligt högre än den i luft så man kunde kanske tro att luftfuktigheten skulle påverka ljudhastigheten, men även här är inverkan minimal. Vid en temperatur på 20 C och i absolut torr luft (0% luftfuktighet) är ljudhastigheten 343.36 m/s. Vid en luftfuktighet på 90% ökar den till 344.49 m/s, dvs. med lite mer än 1 m/s. Även det kan vi nog bortse från i alla praktiska sammanhang. Ljudhastigheten är ganska enkel att räkna ut om man vet temperaturen, men man kan förstås också mäta upp den på ett ganska enkelt sätt genom att tex. skicka en puls från en sändare till en mottagare som befinner sig på ett noggrant uppmätt avstånd från varandra och mäta hur lång tid det tar för pulsen att gå den sträckan. Nästa bild visar ett sådant exempel. Ungefärliga ljudhastigheter i några olika medier vid 20 C Luft 340 m/s Vatten 1500 m/s Stål 5000 m/s Det enda som är riktigt intressant i fonetiken är väl ljudhastigheten i luft, men den högre hastigheten i vatten och metall hjälper oss att förstå varför man kan höra ljudet av motorbåtar mycket bättre under vattenytan än ovanför och varför ljudet av annalkande tåg hörs som ett sjungande i rälsen långt innan ljudet hörs i luften. Eftersom den enda faktor som spelar någon roll, rent praktiskt, för ljudhastigheten i luft är temperaturen kan vi ju avsluta med att i tabellform ange några riktvärden. Temperatur ( C) 30 20 10 0 10 20 30 40 Ljudhastighet (m/s) 313 319 325 332 338 344 350 357
Enkla ljud kan beskrivas med tre egenskaper frekvens, amplitud och duration. Låt oss först bekanta oss med det jag kallar enkla ljud för att se hur de tre grundegenskaperna fungerar och hur de beräknas. Enkla ljud, dvs. ljud som bara svänger med en frekvens, förekommer rätt sällan i vår vardag. Stämgafflar producerar sådana ljud, men inte så mycket annat i vår vardag. Men att beskriva sådana ljud är en bra startpunkt för beskrivning av mer komplexa ljud. Om ni alls sett representationer av ljud så är det väl ungefär såhär det presenterats. I sträng mening är detta ingen representation alls av själva ljudet utan bara av vissa aspekter av dess egenskaper. I det här sammanhanget är det nog inte så dumt att påminna sig den där metaforen jag nämnde i början och som jämförde ljudvågor med krusningar på en vattenyta. Låt oss föreställa oss att vi ser vågor som breder ut sig på en vattenyta och att vi vill undersöka deras egenskaper lite närmare. Ett sätt att göra det (om det är grunt vatten iaf) vore att sätta ner en pinne och se hur vattenytan stiger och sjunker utefter pinnen. Detta skulle ge oss upplysningar om två viktiga egenskaper hos vågorna - deras frekvens och amplitud. Periodtiden får vi genom att mäta tiden mellan två toppar och amplituden genom att mäta skillnaden mellan lägsta och högsta nivån på pinnen. När det gäller ljud så kommer man väl inte så långt med en pinne som mätinstrument, men ersätter man pinnen med en tryckmätare som registrerar trycket så kommer skalan på mätaren att visa förändringen av trycket över tiden precis som vattenivån på pinnen gjorde.
Kopplar man tryckmätaren till en skrivare som registrerar trycket på en remsa som matas på med jämn hastighet får man en kurva av precis den typ som visas i diagrammet. Det finns både likheter och skillnader mellan den verkliga vågen och registreringen. Likheten består i att höjden på vågorna är direkt proportionell mot de verkliga vågornas och att de passerar i samma takt. Hur långt det är mellan vågtopparna (i meter) i verkligheten ger registreringen däremot ingen upplysning om. För att kunna beräkna avståndet mellan vågtopparna (våglängden) i den verkliga vågen måste man veta vågens utbredningshastighet och det ger vår tryckmätare ingen upplysning om, det får man mäta på något annat sätt. Till sist en förklaring till rutan där det står konstant atmosfärsikt tryck. Det innebär bara att vi enbart intresserar oss för själva vågens storlek. Vi mäter ju inte våghöjden i havet från havsbotten utan i förhållande till vattenytan i lugnt vatten. Då är vi redo att sammanfatta dessa grundläggande begrepp. Amplitud = våghöjden räknat från medelnivån Vi sa tidigare att ljud är små förändringar i lufttrycket. Ska vi uttrycka hur stora dessa förändringar är får vi alltså ta till någon enhet för tryck. Den enhet som normalt används för att ange lufttryck är Pascal (Pa). Det motsvarar ett ganska litet tryck. Normalt lufttryck är ungefär 100000 Pa. I väderrapporter använder man ofta enheten hektopascal (100 Pa) för att det ska överensstämma med den gamla enheten millibar (mb) där normalt luftryck är 1013 mb vilket motsvarar 1013 hektopascal. Låt oss jämföra de lufttrycksförändringar vi uppfattar som ljud med normalt atmosfärstryck. Normalt atmosfärstryck 100000 Pa Ljudtryck 0.00002 Pa 20 Pa Det svagaste ljud vi kan uppfatta Det starkaste ljud vi kan uthärda Det starkaste ljud vi kan uthärda motsvarar bara 0.2 tusendelar av normalt lufttryck, eller 20 cm höga vågor i ett 1000 meter djupt hav så vår liknelse med krusningar på ytan av ett djupt hav har ett visst fog för sig som ni lätt kan inse.
Alltså Det som vi uppfattar som ljud är mikrovariationer i lufttrycket orsakade av variation i luftmolekylernas medelhastighet och inget annat - inga böljande vågor, inga dallrande geleklumpar eller annat trams man kan läsa om både här och där! Området 0.00002 Pa till 20 Pa är ju mycket stort. Det starkaste ljud vi kan tåla är en miljon gånger starkare än det svagaste vi kan uppfatta. en sådan skala är inte särskilt praktisk att hantera. Dessutom är det så att den inte särskilt väl speglar hur vi uppfattar ljudstyrka. Av bägge dessa skäl använder man istället en logaritmisk skala - decibellskalan - för att ange ljudtryck. Detta står väl beskrivet i Engstrands bok så jag nöjer mig med att här återge tabellen. Hörseltröskeln Periodtid = Avståndet i tid mellan två vågtoppar. Men vart tog frekvensen vägen? Ja, frekvensen är ju helt enkelt hur många periodtider det går på en sekund. Är periodtiden en tiondels sekund så går det tio sådana på en sekund och då är frekvensen 10. Som enhet för frekvens ska vi använda Hertz (Hz) som då alltså betyder periodtider (eller bara perioder) per sekund. Smärtgränsen Matematiskt kan sambandet uttryckas så här: f = 1/T Variation i frekvens där f = frekvensen (i Hz) och T = periodtiden (i s). eller om det är periodtiden man är ute efter: T = 1/f Några exempel T = 0.005 s f = 1/0.005 = 200 Hz f = 125 Hz T = 1/125 = 0.008 s
Variation i amplitud Komplext ljud. Ett komplext ljud är inget annat än ett ljud som består av flera enkla ljud. Alla musikinstrument och den mänskliga rösten producerar sådana ljud. Andra komplexa ljud Ljudhastigheten och våglängden spelar en viktig roll när man ska förklara talrörets resonansegenskaper och vi ska se lite närmare på hur detta hänger ihop. Ljudets utbredningshastighet brukar betecknas med c och våglängden (dvs avståndet mellan på varandra följande tryckmaxima (eller minima) med den grekiska bokstaven lambda (λ). Uttryckt som en matematisk formel kan sambandet mellan de tre skrivas så här: λ = c/f där f är frekvensen i vanlig ordning. Några exempel: c = 340 m/s f = 100Hz λ = (340m/s) / (100Hz) = 3.4m f = 200Hz λ = (340m/s) / (200Hz) = 1.7m f = 500Hz λ = (340m/s) / (500Hz) = 0.68m Resonansfrekvenser i ett halvöppet rör kan beräknas ur dessa formler Inte alls så svårt som det kan verka. Formeln som ger resonansfrekvenserna i ett öppet rör är alltså F n = (2n 1)c/4l vilket ger F 1 = c/4l, F 2 = 3c/4l, F 3 = 5c/4l osv.??? Vad i himmelens namn är nu detta Jo...
Variablerna i formeln betyder F = resonansfrekvens c = ljudhastigheten l = rörets längd Ljudhastigheten är ungefär 340 m/s Om vi ska jämföra röret med ett normalt talrör kan vi sätta längden till 17 cm (= 0.17 m) Den lägsta resonansen, som vi kan kalla första formanten om vi vill, kommer då att inträffa vid frekvensen F 1 = 340/4*0.17 = 500 Hz På samma sätt får vi en andra resonans vid F 2 = 3*340/4*0.17 = 1500 Hz F 3 hamnar på 2500 Hz osv. Alltså 500 Hz Hur skulle ett sådant ljud låta månntro? 1500 Hz Ja, såhär ungefär 2500 Hz OBS! I samband med talanalys kallas dessa resonansfrekvenser för formanter, numrerade från den lägsta och uppåt F 1, F 2, F 3 osv. Ska man jämföra med något språkligt så kommer det nära schwa-vokalen, dvs [ ], och den har också mycket riktigt formantfrekvenser vid ungefär dessa lägen. Den mest neutrala vokalen, [ ], påminner alltså till karaktären om ljudet i ett jämntjockt, halvöppet rör med längden 17 cm. Att beräkna resonansfrekvenserna i ett riktigt talrör är dock betydligt mer komplicerat. Det var anledningen till att Gunnar Fant, som var en av de första som gjorde akustiska beräkningar av den här typen, valde att försöka simulera talröret med en elektrisk modell.
Den nedre figuren visar ett principschema, den övre hur apparaten såg ut i verkligheten Det är från dessa tidiga experiment (mitten av 50-talet) som den s.k. källa-filter modellen härstammar. Numera har man mer sofistikerade, datoriserade metoder som kan simulera talröret på ett ännu mer verklighetsnära sätt. Men en viss förenkling innebär det alltid. Tal röret En sådan förenkling är att som i den föregående bilden dela upp talröret i cylinderformade sektioner. Eftersom resonansförhållandena i sådana cylindrar är välkända och relativt enkla att beräkna blir modellerna på så sätt mindre komplicerade. Som vi ju lätt inser är inte ett verkligt talrör en serie cylindrar, men det har visat sig att tvärsnittsytans form inte har så stor betydelse för resonanserna. Däremot är varje cylinders diameter, och därmed dess tvärsnittsarea, av avgörande betydelse. Hur denna area ändrar sig utefter talrörets längd är helt avgörande för resonanserna. Detta är därför ett nyckelbegrepp i samband med talrörssimuleringar. Facktermen för detta är areafunktionen. Rösten Läpparna Glottis
Källa-filter-modellen Låt oss påminna oss hur Fants elektriska modell såg ut. Den består alltså av en ljudkälla och en serie filter. Bakgrunden till modellen är att det var (och är) så mycket enklare att göra beräkningarna på en elektrisk modell. För att det ska vara någon poäng med det måste förstås den elektriska modellens egenskaper mycket nära likna den akustiska. Men det har den visat sig göra. Källa-filter-modellen När det gäller talapparaten är det, som vi redan berört, talröret (inklusive läpparna) som är filtret och ljudkällan (när det gäller tonande ljud) stämbandstonen. Nu ska det genast sägas att även om vi talar om stämbandston, grundton osv. så är denna ljudkälla inte så värst tonlik. Åtminstone inte om vi har musikaliska toner i tankarna. Här kommer ett exempel på hur det kan låta. Källa-filter-modellen Sp speech pressure microphone waveform maximum contact Vi ska inte gå in på alla talproduktionens finesser i den här kursen, men det kan väl i alla fall vara intressant att se ett exempel på hur stämbanden, som producerar ljudet, ser ut och fungerar. Lx laryngograph/egg vocal fold contact waveform maximum separation modal voice adult male Normal Sp & Lx Röstkällan Vi har sagt tidigare att komplexa toner kan bestå av två eller flera enkla toner. Sp speech pressure microphone waveform maximum contact I själva verket är det så, att alla periodiska ljud (alltså sådana som inte är brus eller buller) kan delas upp i komponenter som består av enkla toner. Lx laryngograph/egg vocal fold contact waveform maximum separation Det finns en speciell matematisk teknik (Fourieranalys) för att göra detta. modal voice adult male xh31-54 Normal Sp & Lx
Röstkällan Gör man en Fourier-analys av röstkällan så ser man att den består av en grundton och ett (i princip oändligt) antal övertoner vars frekvenser är heltalsmultiplar av grundtonsfrekvensen. Amplituden hos övertonerna avtar successivt. Hur snabbt den avtar beror av en mängd faktorer som bl.a. har med stämbandens mekaniska egenskaper att göra. Här nedanför ser vi två exempel på källspektra med olika grundtonsfrekvens. När sedan källsignalen (stämbandstonen) passerar genom filtret (talröret) påverkas amplituderna i källspektrum genom resonanser i talröret på det sätt vi talat om tidigare och det är dessa resonanser som ger varje ljud sin speciella klangfärg. Källa-filter-modellen Källa-filter-modellen Icke tonande ljud Hittills har vi enbart behandlat tonande ljud, men som vi vet innehåller talet även andra typer av ljud som har en annan ljudkälla än stämbandston. Det gäller då fram för allt frikativa ljud som tex. [s], [ ], [f] och [h]. Dessa ljud följer förstås precis samma lagar som de tonande, men har andra egenskaper. Ljudkällan är här brus som uppstår genom turbulens då luftströmmen från lungorna tvingas genom en trång passage eller då den träffar en kant av något slag, tex. tänderna, med relativt hög hastighet. Icke tonande ljud Bortsett från denna skillnad bildas resonanser av precis samma skäl och på precis samma sätt som för tonande ljud och dessa resonanser ger även de frikativa ljuden sin karaktär. För [h], vars ljudkälla är friktionsbrus vid stämbanden, är resonansrummet detsamma som för vokaler men för alla andra frikativa ljud är det mindre och annorlunda format. Det betyder att det resonansmönster (formanter) man ser är ganska radikalt annorlunda än vokalernas. Vi ska återkomma till detta. Mätmetoder Att kunna mäta och beräkna är förstås en viktig aspekt av den akustiska fonetiken och på den punkten har det skett en enorm teknisk utveckling som gjort, att en del saker som över huvud taget inte gick att mäta tidigare nu gör det och sådant som tidigare var enormt resurskrävande både vad avser tid och pengar numera är både billigt och enkelt. Det mesta av denna utvecklig har skett de senaste 50 åren.
Den här bilden visar en apparat som utgör en milstolpe i den tekniska utvecklingen - spektrografen. Den kom i början av 40- talet och har spelat en mycket viktig roll i fonetiken. Mätmetoder Mätmetoder Med spektrografen fick vi en möjlighet att avbilda ljudens egenskaper på ett sätt som passade väl för att visa talljudens egenskaper. glottal vokal dental bilabial lateral vokal frikativa frikativa klusil Mätmetoder Vi ska se lite närmare på hur ett spektrogram är uppbyggt, men först måste vi tala om något annat men närbesläktat, nämligen ett spektrum. Ett spektrum är ett diagram som visar amplituden hos ett komplext ljud som funktion av frekvensen. OBS att ett komplext ljud ju var ett ljud sammansatt av enkla ljud som vart och ett har en viss amplitud Om man räknar ut ljudets spektrum med jämna tidsmellanrum (säg var tiondels sekund eller så) och radar upp dem på en tidsskala så får man ett berg-och-dal-landskap av den typ som figurerna a) och b) visar. Om man sedan överför detta landskap till en 2- dimensionell bild där höjden representeras av svärtningsgraden, så han man fått ett spektrogram. Mätmetoder Mätmetoder De tre första formanterna i tre vanliga vokaler. [i] [e] [ ] Vokalfyrsidingen igen Några vanliga vokaler. [i] [e] [ ] [o] [u] F 3 F 2 F 1 Kan man koppla detta till vokalfyrsidingen på något sätt?
Här har jag lagt in de fem vokalernas formantvärden i ett diagram och vi kan se att det åtminstone finns en viss likhet med hur vi brukar placera ut dem i den fonologiskt motiverade vokalfyrsidingen. 2500 2000 e i 1500 F 2 1000 500 o u 0 200 300 400 500 600 700 F 1 Vokalfyrsidingen igen När vi försökte placera ut vokalerna i en vokalfyrsiding genom att känna efter var vi hade tungans högsta punkt i munnen så stämde det inte så värst bra överens med den beskrivning vi såg i IPAs diagram och man kan då fråga sig hur det kan komma sig att det ändå fungerar så bra för fonologiska beskrivningar. Det vi just sett här är en del av förklaringen till det för även om det där med tungans högsta punkt inte stämmer så bra så stämmer den akustiska beskrivningen in mycket bättre och den säger ju väldigt mycket om vad vi faktiskt hör. 800 Till sist. Jag inser att det varit en hel del nytt den här gången och inom ett relativt tekniskt område som många av er inte har så stor erfarenhet av, men under laborationerna nästa vecka ska ni på ett mer handgripligt sätt får stifta bekantskap med både ljud och analysverktyg för att studera ljuden.