Akustik, akustiska elementa och talanalys Språkljudens akustik Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Talsignalen mer lättåtkomlig än andra delar av talkommunikationskedjan Det finns bra gratisprogram för akustisk analys av tal, t ex : wavesurfer: http://www.speech.kth.se/ wavesurfer/ praat: http://www.praat.org Under lektionerna om akustisk fonetik och akustiska elementa ska vi prata om ljudvågor, olika typer av ljud, ljudvågors egenskaper (frekvens, periodtid, våglängd, amplitud och fas). Vi ska prata lite om analysmetoder och speciellt då sådana som är relevanta för talanalys. Vi ska också något beröra filter och den akustiska modell för talproduktion som brukar kallas källa-filter-modellen..2.4.6.8 1
Ljudvågor Vad är ett ljud? Ljud är tryckförändringar över tid i något medium, oftast luft, men ljud utbreder sig även i andra medier som t ex i vatten Tryckförändringarna orsakas av variation i luftmolekylernas medelhastighet Svängningar i lufttryck över och under det atmosfäriska trycket Tryckförändringarna breder ut sig i rummet!de skapar tryckvågor, eller om man vill ljudvågor Ljudvågors egenskaper Det finns lite olika slags ljud Låt oss först bekanta oss med det som brukar kallas enkla ljud för att se hur de kan beskrivas med egenskaperna frekvens, amplitud och fas. Frekvens och amplitud
Ljudvågors egenskaper Tryck.1.2.3.4.5 Tid Ljudvågors egenskaper Periodiska vågor, perioder, periodtid, frekvens 4 perioder.1.2.3.4.5.6.7.8.9.1 T=,1 s Periodisk våg = mönster som upprepar sig Period = det mönster som upprepar sig Periodtid T = tiden det tar för ett mönster att upprepa sig, mäts i sekunder Frekvens f = antalet perioder på en sekund, mäts oftast i Hertz (Hz) f = 1/T för denna våg är f=1/,1=1 Hz
Olika frekvenser och periodtider.1.2.3.4 1 Hz 2 Hz 3 Hz 4 Hz 5 Hz Frekvens och periodtid Matematiskt kan sambandet uttryckas så här: f = 1/T där f = frekvensen (i Hz) och T = periodtiden (i s). eller om det är periodtiden man är ute efter: T = 1/f Några exempel: T =.5 s! f = 1/.5 = 2 Hz f = 125 Hz! T = 1/125 =.8 s 1-1.5 1.1.2.3.4.5-1.1.2.3.4.5
Pitch (Hz) 3.2123 6.4239 -.1471.4239 Frekvens, uppfattad tonhöjd, halvtoner Uppfattad tonhöjd förhåller sig inte linjärt i förhållande till frekvens Detta innebär bl a att en förändring från 1 Hz till 2 Hz upplevs som större än en från 2 Hz till 3 Hz (eller från 3 till 4 Hz) trots att förändringarna är lika stora mätt i Hz. och omvänt, att en tonhöjdsförändring från 5 Hz till 1 Hz upplevs som lika stor som en från 1 Hz till 2 Hz, trots att förändringarna är olika stora mätt i Hz Frekvens, uppfattad tonhöjd, halvtoner Tonhöjd uppfattas på en logaritmisk skala mycket lik den halvtonsskala som används inom musiken En fördubbling (eller halvering) av frekvensen motsvarar en förändring med en oktav Psykoakustik! Amplitud Amplitud = våghöjden räknat från medelnivån Den enhet som normalt används för att ange lufttryck är Pascal (Pa). Det motsvarar ett ganska litet tryck. Normalt lufttryck är ungefär 1 Pa. I väderrapporter använder man ofta enheten hektopascal (1 Pa) för att det ska överensstämma med den gamla enheten millibar (mb) där normalt luftryck är 113 mb vilket motsvarar 113 hektopascal.
Ljudvågors egenskaper Olika amplituder 1 1.5.1.15.2 Ljudvågors egenskaper Normalt atmosfärstryck Ljudtryck 1 Pa.2 Pa 2 Pa Det svagaste ljud vi kan uppfatta Det starkaste ljud vi kan uthärda Amplitud, ljudtryck och decibel Amplitud = hur mycket ljudvågen avviker (uppåt eller neråt) från det atmosfäriska trycket Lägsta uppfattbara ljudtryck är.2 Pascal (Pa). Högsta uppfattabara ljudtryck!smärttröskeln är 2 Pa. Dvs att högsta uppfattbara ljudtryck är 1!miljon gånger starkare än det lägsta. Inte heller förhållandet mellan tryckets amplitud och uppfattad ljudstyrka är linjär, en viss förändring i Pa kan upplevas mycket olika beroende på vilket tryck förändringen utgår från.
Ljudvågors egenskaper Hörseltröskeln Amplitud, ljudtryck och decibel Den logaritmiska skalan decibel db stämmer bättre med hur den mänskliga hörseln uppfattar ljudstyrka En fördubbling av ljudtrycket motsvarar en ökning av den uppfattade ljudstyrkan med 6 db En tiodubbling motsvarar en ökning med 2 db. Smärttröskeln ligger 12 db över hörseltröskeln. Smärtgränsen 1 Olika faser (överkurs) Fas 1.5.1.15.2 1 1.5.1.15.2 1 9º 18º 27º 1.2
Ljudvågors egenskaper Frekvens och våglängd Frekvens, våglängd # = c/f några exempel Våglängd! = hur långt en ljudvåg hunnit (i meter) under tiden för en period T Ljudets hastighet i luft c " 34 m/s! = c/f f = c/! Samband mellan frekvens och våglängd: förutsättning: c = 34 m/s om f = 1Hz! = 34m/s / 1Hz = 3.4m om f = 2Hz! = (34m/s) / (2Hz) = 1.7m om f = 5Hz! = (34m/s) / (5Hz) =.68m
Olika typer av ljud Olika typer av ljud Enkla periodiska toner (sinustoner) Kan beskrivas med 3 egenskaper: frekvens, amplitud och fas Komplexa (sammansatta) periodiska toner Kan analyseras som sammansatta av enkla periodiska toner Kan beskrivas med de ingående tonernas frekvenser, amplituder och faser Ett spektrum är ett frekvens-amplitud-diagram Sinustoner och komplexa/ sammansatta toner Komplexa vågor 4 perioder.1.2.3.4.5.6.7.8.9.1 Sinuston = bara en grundton, inga övertoner Komplexa toner = grundton plus övertoner, dvs en grundsvängning och överlagrade övertoner. Kallas även klang..1.2
Deltoner, övertoner Fourieranalys Deltoner: grundtonen F = första deltonen, första övertonen = andra deltonen En harmonisk komplex ton har deltoner/ övertoner på jämna avstånd Dvs om F/d1 (grundtonen/första deltonen) = 1 Hz så är d2 (andra deltonen) på 2 Hz, d3 på 3 Hz, d4 på 4 Hz, d5 på 5 Hz, d6 på 6 Hz osv Den akustiska analys som tar fram deltoner ur en komplex ton kallas Fourieranalys och förekommer t ex i spektrogram och spektrumsnitt Olika typer av ljud Aperiodiska (dvs icke periodiska) ljud Brus Transienter (eller impulser) Kan också beskrivas i termer av amplituder vid olika frekvenser Olika typer av ljud Vitt brus = samma amplitud vid alla frekvenser Färgat brus = olika amplituder vid olika frekvenser Transienter = kort ljud med samma amplitud vid alla frekvenser
.5 Vitt brus (ljudvåg, spektrum) 2 Vitt och färgat brus (glättade spektra) 2 4.1 1 2 2 2 2 4 1 1 1 Ljudkällor i tal Ljudkällor i tal Tal består av klanger, brus och tystnader Klanger är periodiska signaler, de akustiska mönstren upprepar sig Brus är aperiodiska signaler, mönstren upprepar sig inte Tystnader är avsaknad av akustisk aktivitet
Ljudkällor i tal Ljudkällor i tal Vokaler är ett exempel på talljud som bygger på klanger Frikativor är ett exempel på talljud som bygger på brus Klusiler är ett exempel på talljud som bygger på tystnad följd av ett kort brus Ljudkällorna kan kombineras. Till exempel finns det tonande frikativor och tonande klusiler som är kombinationer av klanger och brus, eller affrikator som är kombinationer av tystnad och ett kort brus följda av ett längre brus en frikativa Ljudkälla Resonator Ljud Typ Exempel Vokaler /i/ /u/ Diftonger /ai/ /ou/ Stämläpparna Talröret Periodiskt Halvvokaler /w/ /y/ Amplitudfrekvensdiagram Talröret Talröret Aperiodiskt Nasaler Klusiler Frikativor Affrikator /m/ /n/ /p/ /k/ /s/ /f/ /tj/ Tonande klusiler /b/ /g/ Stämläpparna och talröret Talröret Blandat periodiska och aperiodiska Tonande frikativor /v/ /z/ Tonande affrikator /dj/
Grundton 2 4 6 8 1 12 14 16 18 2 22 24 Grundtonens frekvens bestämmer tonhöjden Om F stiger ökar tonhöjden korta perioder - hög F och vice versa Avståndet mellan intilliggande deltoner = F 4 8 12 16 2 24 Källa-filter-modellen Vokalklanger, resonanser och formanter Alla rör förstärker vissa frekvenser och försvagar andra prata genom ett hoprullat papper så ska ni se att det låter annorlunda än utan rör. Dvs alla rör har resonansegenskaper Rörets form påverkar dess resonansegenskaper om man förändrar rörets form ändras dess resonansegenskaper Artikulationen används för att ändra talrörets form och därigenom dess resonansegenskaper
Vokalklanger, resonanser och formanter Källa-filter-modellen De frekvenser som förstärks av talröret kallas formanter En vokals klangfärg eller vokalkvalitet bestäms av dess formantfrekvenser 4 4 Sound pressure level (db/hz) 2 Sound pressure level (db/hz) 2 5 1 15 2 25 3 35 4 45 5 5
Formantfrekvenser 5 Sound pressure level (db/hz) 4 4 [i] [!] F4 F3 2 [u] 3 F3 F4 F3 F2 2 1 5 F1 F2 F2 F1 F1 Spektrogram Spektrogram 1.629
Spektrogram glottal vokal dental bilabial lateral vokal frikativa frikativa klusil Spektrogram Spektrogram De tre första formanterna i tre vanliga vokaler. [i] [e] [$] F 3 F 2 F 1
Vokalfyrsidingen igen Några vanliga vokaler. [i] [e] [$] [o] [u] Samband mellan F1, F2 och artikulation längs dimensionerna öppen-sluten och främre-bakre F2 Främre vokaler har högre F2 än bakre Öppna vokaler F1 har högre F1 än slutna Kan man koppla detta till vokalfyrsidingen på något sätt? 5.42 1-1.42 Pitch (Hz) 3 1.494 16 8 1.494 1-1 1.494
Icke tonande ljud Hittills har vi enbart behandlat tonande ljud, men som vi vet innehåller talet även andra typer av ljud som har en annan ljudkälla än stämbandston. Det gäller då fram för allt frikativa ljud som tex. [s], [%], [f] och [h]. Dessa ljud följer förstås precis samma lagar som de tonande, men har andra egenskaper. Ljudkällan är här brus som uppstår genom turbulens då luftströmmen från lungorna tvingas genom en trång passage eller då den träffar en kant av något slag, t ex tänderna, med relativt hög hastighet. Icke tonande ljud Bortsett från denna skillnad bildas resonanser av precis samma skäl och på precis samma sätt som för tonande ljud och dessa resonanser ger även de frikativa ljuden sin karaktär. För [h], vars ljudkälla är friktionsbrus vid stämbanden, är resonansrummet detsamma som för vokaler men för alla andra frikativa ljud är det mindre och annorlunda format. Det betyder att det resonansmönster (formanter) man ser är ganska radikalt annorlunda än vokalernas. Brus och brusspektra Brus bildas när luft passerar genom en trång passage Friktionen som uppstår leder till virvelbildning eller turbulens 5.1837.5768 -.133.5768
5 5 1.57.6198.331 -.415 1.57 5 5 1.831 1.265