Akustiska Elementa och Digital Signalbehandling

Relevanta dokument
Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

Akustiska elementa. Ljudvågor. Ljud och ljudvågor (ff) Ljud och ljudvågor. Ljud och ljudvågor (3) Ljud och ljudvågor (4)

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Talets akustik repetition

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

Skillnader vokaler - konsonanter. Konsonanters akustiska mönster. Vokaler. Konsonanter. Konsonantklasser. Sonoranter

Ljudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:

Digital signalbehandling Digitalt Ljud

Spektrala Transformer

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Att fånga den akustiska energin

Spektrogram att göra ljud synligt

Ljud. Låt det svänga. Arbetshäfte

TPPA-B(2): Akustisk fonetik I. Praktisk info. Kurslitteratur

Praktisk info. T-PPA 2 Lektion 1: Akustiska elementa

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

MEDIESIGNALER INTRODUKTION

Talakustik Ljudvågen period periodtid Frekvens Hz Infraljud ultraljud

Grundläggande ljud- och musikteori

Centralt innehåll. O Hur ljud uppstår, breder ut sig och kan registreras på olika sätt. O Ljudets egenskaper och ljudmiljöns påverkan på hälsan.

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Samtidig visning av alla storheter på 3-fas elnät

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

Upp gifter. c. Hjälp Bengt att förklara varför det uppstår en stående våg.

Akustisk fonetik. Akustiska elementa. Ljudvågor. Ljudvågor. Talkommunikationskedjan. Talkommunikationskedjan

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Ulrik Söderström 20 Jan Signaler & Signalanalys

Grundläggande signalbehandling

Ulrik Söderström 19 Jan Signalanalys

Spektrala Transformer

DT1130 Spektrala transformer Tentamen

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4

Mål med temat vad är ljud?

Ljud, Hörsel. vågrörelse. och. Namn: Klass: 7A

Rysk fonetik 5 hp föreläsning II. Institutionen för moderna språk Karine Åkerman Sarkisian Ryska A

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Kundts rör - ljudhastigheten i luft

Talperception. Talperception. Örat. Örat

I Rymden finns ingen luft. Varför kan man inte höra några ljud där?

Läran om ljudet Ljud är egentligen tryckförändringar i något material. För att ett ljud ska uppstå måste något svänga eller vibrera.

Vår hörsel. Vid normal hörsel kan vi höra:

Spektrala Transformer

Uppgifter 2 Grundläggande akustik (II) & SDOF

Spektrala Transformer

2F1120 Spektrala transformer för Media Tentamen

Kapitel 2 o 3. Att skicka signaler på en länk. (Maria Kihl)

Fonetik. Dolores Meden

DT1130 Spektrala transformer Tentamen

1. a) I en fortskridande våg, vad är det som rör sig från sändare till mottagare? Svara med ett ord. (1p)

Vågor. En våg är en störning som utbreder sig En våg överför energi från en plats till en annan. Det sker ingen masstransport

Analys/syntes-kodning

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Att sända information mellan datorer. Information och binärdata

Prov i vågrörelselära vt06 Lösningsförslag

Rekommendation. Den mänskliga hörseln. Den mänskliga hörseln. Det perifera hörselsystemet: anatomi och fysiologi

Örat. Johnson, Kap 3. Basic audition

DT1120 Spektrala transformer för Media Tentamen

Audio & Videoteknik 2D2021, 2D1518

Spektrala Transformer

Frekvensplanet och Bode-diagram. Frekvensanalys

DT1130 Spektrala transformer Tentamen

SIGNALANALYS I FREKVENSRUMMET

Handledning laboration 1

Akustik. Läran om ljudet

2 Laborationsutrustning

GRUNDKURS I SIGNALBEHANDLING (454300), 5sp Tentamen

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 1

Namn:.. Personnr:. 1. (4 p) I vilket av följande ord kan man i central rikssvenska höra 6 språkljud?

Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer

Ljudteknik. Digital representation. Vad är ljud?

Uttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling

DIGITALA FILTER. Tillämpad Fysik Och Elektronik 1. Frekvensfunktioner FREKVENSSVAR FÖR ETT TIDSDISKRET SYSTEM. x(n)= Asin(Ωn)

Laboration i Fourieroptik

Ljudmaskiner. Dra med en fuktig pappersbit längs tråden som sitter fast i plastburken. Till påsken kan du göra en påsktupp av en likadan burk.

Lab lanserade R.A. Moog Inc. en ny synt: Minimoog. Den var designad av Bill Hemsath och Robert Moog och kom att revolutionera musikhistorien.

1 Figuren nedan visar en transversell våg som rör sig åt höger. I figuren är en del i vågens medium markerat med en blå ring prick.

Vokaler. Vokaler och Konsonanter. Vokaler och Konsonanter. Vokaler och Konsonanter. Skillnad: bildningssätt. Vokaler och Konsonanter

Analoga och Digitala Signaler. Analogt och Digitalt. Analogt. Digitalt. Analogt få komponenter låg effektförbrukning

MODUL 1 - ATT UNDERSÖKA LJUD 2

Denna våg passerar mikrofonen, studsar mot väggen och passerar åter mikrofonen efter tiden

Svängningar och frekvenser

Formelsamling finns sist i tentamensformuläret. Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7,5hp Kurskod: HÖ1004 Tentamenstillfälle 1

SÄTT DIG NER, 1. KOLLA PLANERINGEN 2. TITTA I DITT SKRIVHÄFTE.

FYSIK ÅK 9 AKUSTIK OCH OPTIK. Fysik - Måldokument Lena Folkebrant

TSBB16 Datorövning A Samplade signaler Faltning

Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19

Tentamen i Signaler och kommunikation, ETT080

Mätningar med avancerade metoder

Taligenkänning. Hur datorer känner igen talat språk. 729G43 Artificiell Intelligens. Charlie Forsgren, Linköpings Universitet. chafo

Kompletterande räkneuppgifter i Spektrala Transformer Komplex analys, sampling, kvantisering, serier och filter Laura Enflo & Giampiero Salvi

1. Mekanisk svängningsrörelse

Vad är ljud? När man spelar på en gitarr så rör sig strängarna snabbt fram och tillbaka, de vibrerar.

Grundläggande akustik. Rikard Öqvist Tyréns AB

Elektronik 2018 EITA35

Ultraljudsfysik. Falun

Inledning till Wavesurfer av Christine Ericsdotter (Lingvistik, Stockholms universitet)

Hörselkontroll Bullerskydd med öronproppar

Transkript:

Akustiska Elementa och Digital Signalbehandling Rebecca Jonson Talteknologikursen VT2005 Akustisk behandling av tal Inom talteknologi vill vi producera och analysera tal vilket kräver kunskap om talproduktion och talperception Eftersom talet är analogt men vi vill använda oss av datorer tvingas vi handskas med talet digitalt Dagens lektion kommer ta upp grunder I akustik om ljud samt hur det går till att konvertera en analog talsignal till digitala parametrar Litteratur till dagens lektion J&M Kapitel 4 fram till 4.3 (exkl) Speech sounds and Phonetic Transcription The phoneme and Phonological Rules J&M Avsnitt 7.5 Acoustic processing of Speech DON:1.4.1-1.4.3, 1.4.5 Akustisk Fonetik Artikulatorisk Fonetik: studiet av hur språkljud bildas genom att mun, hals och näshåla modifierar luftströmmen från lungorna Fon: språkljud p IPA: International Phonetic Alphabet Inom talteknologi används ofta andra alfabet såsom ARPAbet som bara använder ASCIIsymboler Talproduktion Vi kan producera både språkljud och extralingvistiska ljud med talapparaten De flesta språkljud produceras genom att alstra en luftström från lungorna genom strupröret ut genom mun och/eller näshåla. Luftströmmen passerar förbi larynx och stämbanden som kan sättas I svängning eller inte (tonande vs tonl ösa ljud) Konsonater:förträngd eller avspärrad väg Vokaler:fri väg genom svalget, munhålan och munöppning

Konsonanters Artikulationställe Konsonanters Artikulationssätt Hur bildas konsonantljudet? Frikativor (och affrikativor) Klusiler Nasaler Approximanter Likvidor (vibranter och lateraler) Vokaler Beskrivningstermer Sluten-öppen Främre-bakre Orundad-rundad Oral-nasal (franska) Lång-kort (svenska) Diftonger Vokaler där tungposition ändras under produktionen Hake [ei] Stavelser (syllables) Vokaler är stavelsebildande I kombination med konsonanter [pen.sla] [ba.da] [stra.ma] Lexical stress: den stavelse som är starkast eller längst uttalad har lexical stress. Ex [ pen.sla] Detta kan påverka betydelsen hos ett ord Ob.ject vs ob.ject Dessa ord är homografer Allofoner /fonem/: abstrakt klass som fångar olika uttal av vad vi uppfattar som samma betydelseskiljande ljud [allofon]: en realisering av ett fonem Aspirerat vs oaspirerat t: tår [t h ] vs står [t] allofoner av /t/ Scuse me, while I kiss the sky (Jimi Hendrix) Scuse me, while I kiss this guy Talteknologi behandlar Talspråk $C: så tretti{o}åtta kroner blir de{t} då $M: (han där) (...) $B: va e0 de{t} här då // e0 re0 en hjul < nisse > @ < name > $S: ne{r} de{t} e0 (gamla) $B: vaffö köpe ru gamla [6 fö{r} ]6 $S: [6 men ]6 varför har ni tryckt priserna på dom här då $C: e0 för vi har så många av dom $S: ni ha [7 (...) ]7 $C: [7 (...) ]7 vi har inte så många av $S: okej < > < >

Talperception Hörsel: 20-20000 Hz Känsligast för 1000-6000Hz Icke-linjär uppfattning av frekvensintervaller 100-800Hz stor skillnad 3100-3800Hz liten skillnad Örat kan uppfatta separata språkljud men tar ofta språkljudskontexten till hjälp för avgöra Tar hänsyn till akustiska signalen men också artikulationsmöjligheter enhet för ljudstyrka är decibel 0 hörseltr öskel Viskning 30 Konversation 60 Jetplan 130 140 Nu gör det ont Perception Inre örats membran sätts I vibration Talsignal delas upp I frekvenskomponenter genom att olika delar av hörsnäckan reagerar på olika frekvenser Igenkänningen och perceptionen sker dels av fonem eller språkljud sedan av ord Ljud Ljud är en vibration av luftpartiklar som kan sätta örats trumhinna i vibration vilket ger en auditorisk förnimmelse En ljudvåg är en fortskridande förändring av lufttrycket Förtunningar och förtätningar av luftpartiklar fram å tillbaka i ljudvågens fortplantningsriktning Ljudvåg Talljudvåg För att analysera ljud behöver vi karakterisera vibrationens mönster För tonande talljud är det luftströmmen genom larynx som är ljudkällan Det är en komplex våg som ser ut så här: Periodtid Tonande ljud = periodiska, lufttrycksvariationerna har ett regelbundet mönster (periodicitet) i tiden. Tonande talljud: Vokaler, nasaler, lateraler Period= Tiden som krävs för en rundtripp (oscillation, cycle) Mönstrets minsta sammanhängande återkommande delar kallas perioder och tiden för en hel period - periodtid - T Mätenhet för T inom akustiken - ms (millisekunder)

Frekvens Lång periodtid = dovt ljud Kort periodtid = gällt, ljust ljud Detta kan uttryckas istället genom att ange antal perioder per sekund: Frekvens = 1/periodtid (T) Frekvens Frekvens betecknas f, mätenheter: P/s = Perioder per sekund Hz = samma, efter tysken Hertz C/s = cycles per second (eng.) För högre frekvenser ofta khz Sambandet mellan T (periodtid) och f: f = 1/T, eller - antalet perioder per sekund = 1 dividerat med periodtiden i sekunder Frekvens beror på Vibrationssystemets fysiska egenskaper Längden på stämbanden En springas hårdhet Hörselupplevelse av frekvens är tonhöjd Ju högre frekvens desto högre tonhöjd Känsligast för 1000-6000Hz Hörsel: 20-20000 Hz Våglängd Betecknas ofta med lambda (?)- den sträcka ljudet tillryggalägger under tiden för en hel period. Ljudets hastighet (c) = 340 m/sek (normalt)? = c x T, eller - våglängden = ljudhastigheten gånger periodtiden Amplitud Vibrationens lodrätta utslag kallas för amplitud Amplituden avspeglar intensiteten av svängningen (vibrationen, oscillationen) av ett objekt, som förnimmas som ljudvolymen Större utslag (= kraftigare rörelse) påverkar intensiteten av ljudet, men inte frekvens! Extent of motion during each cycle; amount of displacement from equilibrium position.

Amplitud beror på Hur objektet sattes I rörelse Hur långt ifrån mittpunkten det förflyttar sig Med vilken styrka objektet sätts igång Intensitet Intensitetens enheter mäts som (ljudtrycks-) effekt/ytenhet Intensitet I = P/A [W/cm 2 ] Ju större energiflöde per ytenhet desto större kraft per ytenhet, som är samma som tryck per ytenhet Decibel [db] är ett annat mått Relaterar akustiska styrkan hos två olika ljud (ändå: 0dB=10-16 W/cm 2 ) Elementärt om spektrum Viktigaste egenskaperna för en periodisk ton: Amplituden Periodtiden En ljud våg kan representeras som ett: AT-diagram med amplituder vid olika tidpunkter. Annat vanligt sätt att avbilda en sinuston är som ett spektrum Spektrum Angerperiodtiden omräknad till frekvens längs en frekvensaxel. Amplituden visas då med hjälp av höjden på stapeln. Till höger spektrum av ett vokalljud med fundamental frekvens på 100 Hz Enkla vs. Komplexa ljudvågor Hittills: enkla ljudvågor, rena ljud, s.k. sinustoner, syntetiska toner Naturtoner är klang, dvs en ansamling av toner I första hand deltoner I andra hand påverkas tonbildning av omgivningens resonanskaraktär Fourier Bara en sinuston kan framställas med EN stolpe. Franske matematikern Fourier säger: varje vågform kan ses som ett antal sammansatta sinusvågor En komplex våg är summan av ett nummer av sinusvågor Den sammansatta vågens sinuskomponenter kallas DELTONER (Harmonics) Lättare att avläsa en massa deltoner i spektrum än i AT-diagram

Spektrum av en komplex våg Fundamental Frekvens (Grundton, f0) När det gäller tonande talljud så motsvarar grundtonen stämtonsbildningen I struphuvudet eller stämbandens antal öppnings och slutningscykler per sekund stämläpparnas regelbundna svängningar 1/period av repetition av en komplex våg, egenfrekvensen Fourier Analys Alla komplexa vågor kan analyseras som summan av dess enkla vågor med deras amplitud och frekvens Enkla deltonskomponenter uppträder alltid som multiplar av grundtonen 2ra deltonsfrekvensen = 2f0. 3dje deltonsfrekvensen = 3f0. Amplituden sjunker med deltonsordning Operiodiska signaler brusljud (frikativor) enstaka pulser (klusiler) Inget förlopp upprepas i dessa ljud Brusljud (frikativor): luftströmmen stöter på en trång passage, luftströmmen trycks ihop och genom passagen, luften breder ut sig mot alla håll, oregelbunden virvelbildning (turbulenser) Pulser (klusiler): explosionen ger ett enda utslag som inte upprepas Periodiska och operiodiska signaler Tonande frikativor innehåller båda komponenter: - dels grundtonens periodicitet - dels frikativans operiodiska karaktär Signalen har därför ett regelbundet mönster i botten med pålägg av taggar Spektrum av periodiska och operiodiska signaler Ett spektrum av periodiska signaler består av enstaka spikar i jämn avstånd med varierande amplitud Ett spektrum av operiodiska signaler består av en genomg ående linje där andelar av alla frekvenser med varierande amplitud är med

Resonans Objekt som sätts i svängning har vanligtvis flera egenfrekvenser I ett rör finns en luftpelare som har vissa likheter med en spänd sträng (som man lätt kan få att svänga). Frekvenskomponenter av ett objekt som ligger nära excitationsfrekvensen blir då förstärkta Egenfrekvensen förstärks mest och förstärkningen minskar med ökande avstånd Resonans och filter En resonator fungerar som ett filter Vissa frekvenser släpps genom, medan andra blir försvagade eller släpps inte alls genom Olika storlekar gynnar olika frekvensområden Olika material medför olika förstärkningsgrader för samma frekvensområde forts Materialvariation påverkar formen av förstärkningskurvan --> bandbredd Bandbredd: alla frekvenser som blir förstärkta ner till 3dB under toppen (centerfrekvensen) Helmholtzresonatorer: - en glaskula har smalare bandbredd - en kula med mjukare väggar har större bandbredd (t ex munhålan) Filter Resonanskaraktär (= filteregenskap) kan beskrivas med en kurva Filterkurvor (transferfunktioner) är inte nödvändigtvis symmetriska Lågpassfilter: sl äpper genom frekvenser nedanför en definierad nivå Högpassfilter: släpper genom frekvenser ovanför en definierad nivå Bandpassfilter: släpper genom frekvenser mellan en lägre och en högre frekvens --> inom ett band Talapparatens (ansatsrörets) filteregenskap har symmetriska toppar Källa-Filter Formanter Formanter: Resonanser som talrörets filter ger i olika konfigurationer Den spektrala motsvarigheten (korrelatet) till ljudidentifikation är deltonernas amplitudfördelning längs frekvensaxeln. Ett rörs inverkan på ljudkaraktären är beroende av rörets längd och form (Helmholtz typ). Dvs talapparatens olika konfigurationer påverkar Samt individens storlek på talapparaten

forts Alla rör har en serie resonanser vars frekvenser är beroende av rörets längd och form. Röret fungerar som ett slags filter Filtret släpper igenom (förstärker) deltoner vars frekvenser överensstämmer med rörets resonansfrekvenser, medan det försvagar (hindrar) deltoner med frekvenser som är skilda från rörets resonansfrekvenser. Resonanser för en relativ öppen talapparat (17 cm): 500 Hz 1500 Hz 2500 Hz 3500 Hz etc. Spektrogram Ett spektrum kan ses I tidsperspektiv genom att visa det med vad som kallas ett ljudspektrogram Spektrum förändras kontinuerligt för att spegla artikulatorernas rörelser -> därför bättre att ha en representation av spektrum över tid Spektrogram Den horisontala axeln motsvarar tid Den vertikala frekvens Färgstyrka (mörkhet) visar amplituden Visar tydligt formanterna (svarta band) forts Gjort för att effektivt spegla spektrala amplituden inom en given ram Spektrogram är ett sätt att visa spektrumförändringar över tiden Waveform vs Spektrogram Formanttransitioner För en klusil konsonant är talröret helt stängt I slutningskede och inte ljud kommer ur munnen Men när öppningen sker så ändras resonanser I talröret snabbt. Dessa förändringar kallas formanttransitioner Första formanter ses som en stigande transition efter en klusil Riktning på andra och tredje formanternas transitioner beror på vilken klusil det gäller (artikulationstället) samt på vilken vokal som följer

Formanttransitioner Digital Signal Processing Datorer och tal Hur kommer ljudet in i datorn? Analog till digital konvertering av den akustiska signalen Vad kan man göra med datorn rörande tal? Talanalys Talsyntes Taligenkänning Osv. Analoga och digitala signaler Ljudvågor är analoga, kontinuerliga signaler (även magnetbandspelare) Datorer använder bits (bitar) - så för att kunna använda ljudet måste det digitaliseras, stegvisa signaler Sampling - mätning av amplituden med jämna tidsmellanrum Kvantifiering - Hur många amplitudsteg ska man ha? A/D omvandling Den analoga talsignalen ska omvandlas till en digital signal (till siffror) som en dator kan behandla Omvandlingen av en kontinuerlig signal till diskret signal sker genom: Sampling Kvantifiering Den digitala representationen (siffrorna) modifieras sedan för att normalisera ljudvolymen och ta bort bakgrundsljud/brus Sampling Tar värden längs tidsaxeln (x). uppdelning av signalen i diskreta punkter i tiden. Begränsar antalet decimaler på tidsaxeln Delar upp signalen i tidsfönster

Sampling rate Vi hör mellan 20-20000 Hz Hur ofta måste vi sampla för att fånga signalens info? Dubbelt så många värden som Nyquist-frekvensen i signalen för att kunna fånga periodiciteten Nyquist-frekvensen är signalens högsta frekvens (mest cykler per sekund) cd-skivor 44kHz 8 khz vanligt för tal via telefoni, ger 4khz Nyquist dvs 4khz är högsta frekvensen som fångas Rate 8khz 8000 samplingar per sekund! Idealt för tal 20 khz (normalt 16) Kvantifiering När vi har samplat ljudet vet vi var på tidsaxeln (x) vi befinner oss, men för att kunna återge ljudets amplitud måste vi veta var längs y-axeln vi ska rita in det Avläsning av amplituden vid varje samplingspunkt, med mer eller mindre noggrannhet begränsa antalet decimaler på amplitudaxeln Beroende av bitsnumret som väljs för lagring Ju fler nivåer (y-värden) desto bättre kan ljudets amplitud efterliknas (precis som när man väljer frekvens för sampling). Som alltid - ju högre precision desto mera informationsmängd -> mera utrymme Väl digitaliserat Vanligt - 8 el. 16 bitar (dvs. 1 el. 2 byte per sample) -> kallas ofta upplösning eller bitdjupet. 8 bitar ger 256 nivåer (-128 till +127), 16 bitar 65536 nivåer (-32768 till +32767) Telefon - 8bits/sample 2 kan man göra en massa grejer med det. Filtrera Analysera Förändra det Från signal representation kan vi försöka härleda: formanter svarta linjer I spektrogram Visar Starka frekvenskomponenter Hjälper oss att Karakterisera vokaler Hjälper oss att avgöra talarens kön pitch fundamental frequency (f0) Hjälper oss att avgöra talarens kön Grund för att avgöra formanter Frekvensdistributionsförändringar Karakteristika för till exempel klusiler Det finns olika sätt att behandla den digitaliserade signalen Vi vill konvertera det till någon typ av spektrala parametrar Separera ut frekvenskomponenter FFT (Fast Fourier Transform) spectrogram Andra frekvensbaserad representationer: LPC (linear predictive coding), Cepstrum Frekvensanalys (DFT och FFT) Discrete Fourier Transform Används för att göra frekvensanalys av diskreta operiodiska signaler, FFT är en annan metod med mer ekonomiska uträkningar som ger samma resultat. Fast FourierTransform (Tukey and Cooley1965) Organiserar uträkningen så att man återanvänder data i de komplicerade multiplikationerna - mängden uträkningar blir färre -> snabbare Eftersom signalen har en finit längd (duration) kan man inte både ha bra tids- och frekvensupplösning

forts Eftersom signalen är samplad blir frekvensanalysen från 0 till Nyquist (maximala frekvensen i signalen) - alltså med jämna avstånd enligt samplingsfrekvensen. FFT kräver att antalet spektrala punkter och samplingspunkter har en potens av 2 (fönsterlängden har en potens av 2) Egentligen ett fönster med 64, 128, 256 eller 1024 punkter forts FFT frekvenserna kan alltså enbart inträffa vid separata frekvenser: En samplad vågform vid 44,1 khz med 2048 punktsfönster (23,2 ms) har värden vid 43, 86.1, 129.2, 172.2 osv. Hz. Inga värden emellan, men dessa kan läggas till LPC (linear predictive coding) Waveform and LPC Spectrum for Vowel ae (Figs. 7.21, 7.22) Istället för Fourier transform spektrum som sätter ut alla frekvenskomponenter av en våg så används ofta LPC spektrum som är en smoothad utjämnad version. LPC är ett kodningssätt av spektrum som gör det enklare att se var de spektrala topparna ligger X-axel visar frekvensen och Y-axel visar en mätning av frekvenskomponentens styrka (i decibel) Ett LPC-spektrum representeras av en vektor av parametrar, varje formant motsvarar två parametrar plus två extra parametrar. 5 formanter ger 12 parametrar (5*2+2) Principen för LPC-algoritmen bygger på att vilken punkt som helst kan definieras som summan av ett antal tidigare punkter, som i sin tur blivit multiplicerade med passande positiva eller negativa nummer. Amplitude/ Pressure Energy Formants Time Frequency Andra parametermängder Prosodisk modifiering av tal Cepstrum: En typ av parametermängd som används är cepstral koefficienter som beräknas från LPC koefficienter PLP är en analys som tar LPC parametrar och modifierar dem efter teorier om hörseln Sämre spektral lösning på höga frekvenser Ett ljuds förnimmade styrka är relaterat till intensiteten 3 Det finns osckså olika signalbehandlingsmetoder för att modifiera prosodin och durationen hos en signal (används bl a inom talsyntes): PSOLA: pitch-synchronously overlap and add MBROLA.Mer om detta när vi kommer in på talsyntes!