Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

Relevanta dokument
Akustiska Elementa och Digital Signalbehandling

Akustiska elementa. Ljudvågor. Ljud och ljudvågor (ff) Ljud och ljudvågor. Ljud och ljudvågor (3) Ljud och ljudvågor (4)

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Talets akustik repetition

Språkljudens akustik. Akustik, akustiska elementa och talanalys

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Skillnader vokaler - konsonanter. Konsonanters akustiska mönster. Vokaler. Konsonanter. Konsonantklasser. Sonoranter

Ljudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:

Digital signalbehandling Digitalt Ljud

Att fånga den akustiska energin

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Spektrala Transformer

Ljud. Låt det svänga. Arbetshäfte

TPPA-B(2): Akustisk fonetik I. Praktisk info. Kurslitteratur

Spektrogram att göra ljud synligt

Praktisk info. T-PPA 2 Lektion 1: Akustiska elementa

MEDIESIGNALER INTRODUKTION

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

Talakustik Ljudvågen period periodtid Frekvens Hz Infraljud ultraljud

Centralt innehåll. O Hur ljud uppstår, breder ut sig och kan registreras på olika sätt. O Ljudets egenskaper och ljudmiljöns påverkan på hälsan.

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Grundläggande signalbehandling

Akustisk fonetik. Akustiska elementa. Ljudvågor. Ljudvågor. Talkommunikationskedjan. Talkommunikationskedjan

Spektrala Transformer

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Samtidig visning av alla storheter på 3-fas elnät

Rysk fonetik 5 hp föreläsning II. Institutionen för moderna språk Karine Åkerman Sarkisian Ryska A

Grundläggande ljud- och musikteori

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Upp gifter. c. Hjälp Bengt att förklara varför det uppstår en stående våg.

Kundts rör - ljudhastigheten i luft

DT1130 Spektrala transformer Tentamen

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

Talperception. Talperception. Örat. Örat

Ljud, Hörsel. vågrörelse. och. Namn: Klass: 7A

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Kapitel 2 o 3. Att skicka signaler på en länk. (Maria Kihl)

Fonetik. Dolores Meden

Läran om ljudet Ljud är egentligen tryckförändringar i något material. För att ett ljud ska uppstå måste något svänga eller vibrera.

Analys/syntes-kodning

Mål med temat vad är ljud?

Ulrik Söderström 20 Jan Signaler & Signalanalys

Vågor. En våg är en störning som utbreder sig En våg överför energi från en plats till en annan. Det sker ingen masstransport

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Att sända information mellan datorer. Information och binärdata

Ulrik Söderström 19 Jan Signalanalys

2F1120 Spektrala transformer för Media Tentamen

Vår hörsel. Vid normal hörsel kan vi höra:

Namn:.. Personnr:. 1. (4 p) I vilket av följande ord kan man i central rikssvenska höra 6 språkljud?

I Rymden finns ingen luft. Varför kan man inte höra några ljud där?

Uttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling

1. a) I en fortskridande våg, vad är det som rör sig från sändare till mottagare? Svara med ett ord. (1p)

Akustik. Läran om ljudet

Tentamen i Signaler och kommunikation, ETT080

Handledning laboration 1

Rekommendation. Den mänskliga hörseln. Den mänskliga hörseln. Det perifera hörselsystemet: anatomi och fysiologi

Prov i vågrörelselära vt06 Lösningsförslag

Örat. Johnson, Kap 3. Basic audition

Uppgifter 2 Grundläggande akustik (II) & SDOF

Laboration 3 Sampling, samplingsteoremet och frekvensanalys

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 1

Spektrala Transformer

Passiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer

Audio & Videoteknik 2D2021, 2D1518

DT1130 Spektrala transformer Tentamen

DT1130 Spektrala transformer Tentamen

3. Metoder för mätning av hörförmåga

Grundläggande akustik. Rikard Öqvist Tyréns AB

Ljudmaskiner. Dra med en fuktig pappersbit längs tråden som sitter fast i plastburken. Till påsken kan du göra en påsktupp av en likadan burk.

Spektrala Transformer

Vokaler. Vokaler och Konsonanter. Vokaler och Konsonanter. Vokaler och Konsonanter. Skillnad: bildningssätt. Vokaler och Konsonanter

Analoga och Digitala Signaler. Analogt och Digitalt. Analogt. Digitalt. Analogt få komponenter låg effektförbrukning

Ljudteknik. Digital representation. Vad är ljud?

DT1120 Spektrala transformer för Media Tentamen

GRUNDKURS I SIGNALBEHANDLING (454300), 5sp Tentamen

Laboration i Fourieroptik

Vad är ljud? När man spelar på en gitarr så rör sig strängarna snabbt fram och tillbaka, de vibrerar.

Formelsamling finns sist i tentamensformuläret. Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7,5hp Kurskod: HÖ1004 Tentamenstillfälle 1

FYSIK ÅK 9 AKUSTIK OCH OPTIK. Fysik - Måldokument Lena Folkebrant

SÄTT DIG NER, 1. KOLLA PLANERINGEN 2. TITTA I DITT SKRIVHÄFTE.

Frekvensplanet och Bode-diagram. Frekvensanalys

MODUL 1 - ATT UNDERSÖKA LJUD 2

Fonetik I. Talets anatomi

F2 Beskrivning av ljud. Ljud = vågrörelse. Tryckvariation Akustisk Planering VTA070 Infrastruktursystem VVB090

Spektrala Transformer

= T. Bok. Fysik 3. Harmonisk kraft. Svängningsrörelse. Svängningsrörelse. k = = = Vågrörelse. F= -kx. Fjäder. F= -kx. massa 100 g töjer fjärder 4,0 cm

Kompletterande räkneuppgifter i Spektrala Transformer Komplex analys, sampling, kvantisering, serier och filter Laura Enflo & Giampiero Salvi

Ljud Molekyler i rörelse

1. Mekanisk svängningsrörelse

1 Figuren nedan visar en transversell våg som rör sig åt höger. I figuren är en del i vågens medium markerat med en blå ring prick.

Elektronik 2018 EITA35

Signaler och system, IT3

Ultraljudsfysik. Falun

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

2 Laborationsutrustning

Laboration 1 Fysik

Taligenkänning. Hur datorer känner igen talat språk. 729G43 Artificiell Intelligens. Charlie Forsgren, Linköpings Universitet. chafo

Denna våg passerar mikrofonen, studsar mot väggen och passerar åter mikrofonen efter tiden

Transkript:

Digital behandling av tal Akustiska Elementa och Digital Signalbehandling Rebecca Jonson Talteknologikursen VT2007 Inom talteknologi vill vi producera och analysera tal vilket kräver kunskap om talproduktion och talperception Då talet är analogt men vi vill använda oss av datorer tvingas vi handskas med talet digitalt Dagens lektion kommer ta upp grunder i akustik och fonetik samt hur det går till att konvertera en analog talsignal till en digitala representation Litteratur till dagens lektion J&M Kapitel 4-4.2 Speech sounds and Phonetic Transcription The phoneme and Phonological Rules J&M Avsnitt 7.5 Acoustic processing of Speech DON:1.4.1-1.4.3, 1.4.5 Utdelat material om Signalbehandling Akustisk Fonetik Artikulatorisk Fonetik: studiet av hur språkljud bildas genom att mun, hals och näshåla modifierar luftströmmen från lungorna Fon: språkljud p IPA: International Phonetic Alphabet Inom talteknologi används ofta andra alfabet såsom ARPAbet som bara använder ASCIIsymboler Vi kan producera både språkljud och extralingvistiska ljud med talapparaten De flesta språkljud produceras genom att alstra en luftström från lungorna genom strupröret ut genom mun och/eller näshåla. Luftströmmen passerar förbi larynx och stämbanden som kan sättas i svängning eller inte (tonande vs tonlösa ljud) Konsonater:förträngd eller avspärrad väg Vokaler:fri väg genom svalget, munhålan och munöppning Talproduktion 1

Konsonanters Artikulationställe Konsonanters Artikulationssätt Hur bildas konsonantljudet? Frikativor (och affrikativor) Klusiler Nasaler Approximanter Likvidor (vibranter och lateraler) Beskrivningstermer Sluten-öppen Främre-bakre Orundad-rundad Oral-nasal (franska) Lång-kort (svenska) Diftonger Vokaler där tungposition ändras under produktionen Hake [ei] Vokaler Stavelser (syllables) Vokaler är stavelsebildande i kombination med konsonanter [pen.sla] [ba.da] [stra.ma] Lexical stress: den stavelse som är starkast eller längst uttalad har lexical stress. Ex [ pen.sla] Detta kan påverka betydelsen hos ett ord Ob.ject vs ob.ject Dessa ord är homografer Fonem och Allofoner /fonem/: abstrakt klass som fångar olika uttal av vad vi uppfattar som samma betydelseskiljande ljud [allofon]: en realisering av ett fonem Aspirerat vs oaspirerat t: tår [t h ] vs står [t] allofoner av /t/ Scuse me, while I kiss this guy Scuse me, while I kiss the sky (Jimi Hendrix) Hörsel: 20-20000 Hz Känsligast för 1000-6000Hz Icke-linjär uppfattning av frekvensintervaller 100-800Hz stor skillnad 9100-9800Hz liten skillnad Örat kan uppfatta separata språkljud men tar ofta språkljudskontexten till hjälp för avgöra Tar hänsyn till akustiska signalen men också artikulationsmöjligheter enhet för ljudstyrka är decibel 0 hörseltröskel Viskning 30 Konversation 60 Jetplan 130 140 Nu gör det ont! Talperception 2

Perception Inre örats membran sätts i vibration Talsignal delas upp i frekvenskomponenter genom att olika delar av hörsnäckan reagerar på olika frekvenser Igenkänningen och perceptionen sker dels av fonem eller språkljud sedan av ord Ljud Ljud är en vibration av luftpartiklar som kan sätta örats trumhinna i vibration vilket ger en auditorisk förnimmelse En ljudvåg är en fortskridande förändring av lufttrycket Förtunningar och förtätningar av luftpartiklar fram å tillbaka i ljudvågens fortplantningsriktning Talljudvåg För att analysera ljud behöver vi karakterisera vibrationens mönster För tonande talljud är det luftströmmen genom larynx som är ljudkällan Det är en komplex våg som ser ut så här: Period Tonande ljud = periodiska lufttrycksvariationerna har ett regelbundet mönster (periodicitet) i tiden. Tonande talljud: Vokaler, nasaler, lateraler Period = Tiden som krävs för en rundtripp (oscillation, cycle) Mönstrets minsta sammanhängande återkommande delar kallas perioder Periodtid Tiden för en hel period = Periodtid - T Mätenhet för T inom akustiken är ms (millisekunder) Lång periodtid = dovt ljud Kort periodtid = gällt, ljust ljud Istället för periodtid (T) brukar man tala om frekvens som är antal perioder per sekund 3

Frekvens Frekvens betecknas f och mäts i: P/s = Perioder per sekund Hz = samma, efter tysken Hertz C/s = cycles per second (eng.) För högre frekvenser ofta khz Sambandet mellan T (periodtid) och f: f= 1/T antalet perioder per sekund = 1 dividerat med periodtiden i sekunder Frekvens i tal beror på Vibrationssystemets fysiska egenskaper Längden på stämbanden En springas hårdhet Längden på struphuvudet Förändras med åldern Hörselupplevelse Hörselupplevelsen av frekvens är tonhöjd Ju högre frekvens desto högre tonhöjd Vi är känsligast för 1000-6000Hz Hörsel: 20-20000 Hz Våglängd Den sträcka ljudet tillryggalägger under tiden för en hel period. Betecknas ofta med lambda (λ) Ljudets hastighet (c) = 340 m/sek (normalt) λ = c T våglängden = ljudhastigheten gånger periodtiden Amplitud Vibrationens lodrätta utslag kallas för amplitud Amplituden avspeglar intensiteten av svängningen (vibrationen, oscillationen) av ett objekt, som förnimmas som ljudvolymen Större utslag (= kraftigare rörelse) påverkar intensiteten av ljudet, men inte frekvens! Extent of motion during each cycle; amount of displacement from equilibrium position. Amplitud beror på Hur objektet sattes i rörelse Med vilken styrka objektet sätts igång Hur långt ifrån mittpunkten det förflyttar sig 4

Intensitet Intensiteten mäts som: (ljudtrycks-)effekt per ytenhet I=P/A [W/cm 2 ] Ju större energiflöde per ytenhet desto större kraft per ytenhet, som är samma som tryck per ytenhet Decibel [db] är ett annat mått Relaterar akustiska styrkan hos två olika ljud (ändå: 0dB=10-16 W/cm 2 ) Elementärt om spektrum Viktigaste egenskaperna för en periodisk ton: Amplituden Periodtiden En ljudvåg kan representeras som ett: AT-diagram med amplituder vid olika tidpunkter. Annat vanligt sätt att avbilda en sinuston är som ett spektrum Anger periodtiden omräknad till frekvens längs en frekvensaxel. Amplituden visas då med hjälp av höjden på stapeln. Till höger spektrum av ett vokalljud med fundamental frekvens på 100 Hz Spektrum Fundamental Frekvens (Grundton,f0) När det gäller tonande talljud så motsvarar grundtonen (f0) stämtonsbildningen i struphuvudet eller stämbandens antal öppnings och slutningscykler per sekund Stämläpparnas regelbundna svängningar Första piken i ett spektrum Relaterad till en lyssnares uppfattning om talarens tonhöjd Egenfrekvensen: 1/period av repetition av en komplex våg Enkla vs. Komplexa ljudvågor Enkla ljudvågor är rena ljud s.k. sinustoner (uppkommer inte i tal) Naturtoner är klang s.k komplexa ljudvågor dvs en ansamling av toner I första hand deltoner I andra hand påverkas tonbildning av omgivningens resonanskaraktär Fourier Franske matematikern Fourier säger: varje vågform kan ses som ett antal sammansatta sinusvågor En komplex våg är summan av ett nummer av sinusvågor Den sammansatta vågens sinuskomponenter kallas DELTONER Lättare att avläsa en massa deltoner i spektrum än i AT-diagram 5

Spektrum av en komplex våg Fourier Analys Alla komplexa vågor kan analyseras som summan av dess enkla vågor med deras amplitud och frekvens Enkla deltonskomponenter uppträder alltid som multiplar av grundtonen 2ra deltonsfrekvensen = 2f0. 3dje deltonsfrekvensen = 3f0. Amplituden sjunker med deltonsordning Operiodiska signaler Ljud där inget förlopp upprepas brusljud (frikativor) enstaka pulser (klusiler) Brusljud (frikativor): luftströmmen stöter på en trång passage, luftströmmen trycks ihop och genom passagen, luften breder ut sig mot alla håll, oregelbunden virvelbildning (turbulenser) Pulser (klusiler): explosionen ger ett enda utslag som inte upprepas Periodiska och operiodiska signaler Tonande frikativor innehåller båda komponenter: - dels grundtonens periodicitet - dels frikativans operiodiska karaktär Signalen har därför ett regelbundet mönster i botten med pålägg av taggar Spektrum av periodiska och operiodiska signaler Ett spektrum av periodiska signaler består av enstaka spikar i jämn avstånd med varierande amplitud Ett spektrum av operiodiska signaler består av en genomgående linje där andelar av alla frekvenser med varierande amplitud är med Resonans Objekt som sätts i svängning har vanligtvis flera egenfrekvenser I ett rör finns en luftpelare som har vissa likheter med en spänd sträng (som man lätt kan få att svänga). Frekvenskomponenter av ett objekt som ligger nära excitationsfrekvensen blir då förstärkta Egenfrekvensen förstärks mest och förstärkningen minskar med ökande avstånd 6

Resonans och filter En resonator fungerar som ett filter Vissa frekvenser släpps genom, medan andra blir försvagade eller släpps inte alls genom Olika storlekar gynnar olika frekvensområden Olika material medför olika förstärkningsgrader för samma frekvensområde Bandbredd Materialvariation påverkar formen av förstärkningskurvan --> bandbredd Bandbredd: bredd i Hz av filtertoppen alla frekvenser som blir förstärkta ner till 3dB under toppen (centerfrekvensen) Helmholtzresonatorer: - en glaskula har smalare bandbredd - en kula med mjukare väggar har större bandbredd (t ex munhålan) Filter Källa-Filter Resonanskaraktär (= filteregenskap) kan beskrivas med en kurva Filterkurvor (transferfunktioner) är inte nödvändigtvis symmetriska Lågpassfilter: släpper genom frekvenser nedanför en definierad nivå Högpassfilter: släpper genom frekvenser ovanför en definierad nivå Bandpassfilter: släpper genom frekvenser mellan en lägre och en högre frekvens --> inom ett band Talapparatens (ansatsrörets) filteregenskap har symmetriska toppar Formanter Resonanser som talrörets filter ger i olika konfigurationer förstärker vissa frekvenser Den spektrala motsvarigheten till ljudidentifikation är deltonernas amplitudfördelning längs frekvensaxeln. Ett rörs inverkan på ljudkaraktären är beroende av rörets längd och form. Dvs talapparatens olika konfigurationer påverkar Samt individens storlek på talapparaten forts Alla rör har en serie resonanser vars frekvenser är beroende av rörets längd och form. Röret fungerar som ett slags filter Filtret släpper igenom (förstärker) deltoner vars frekvenser överensstämmer med rörets resonansfrekvenser, medan det försvagar (hindrar) deltoner med frekvenser som är skilda från rörets resonansfrekvenser. Resonanser för en relativ öppen talapparat (17 cm): 500 Hz 1500 Hz 2500 Hz 3500 Hz etc. 7

Spektrogram Ett spektrum kan ses i tidsperspektiv genom att visa det med vad som kallas ett ljudspektrogram Spektrum förändras kontinuerligt för att spegla artikulatorernas rörelser -> därför bättre att ha en representation av spektrum över tid Spektrogram Den horisontala axeln motsvarar tid Den vertikala frekvens Färgstyrka (mörkhet) visar amplituden Visar tydligt formanterna (svarta band) forts Waveform vs Spektrogram Gjort för att effektivt spegla spektrala amplituden inom en given ram Spektrogram är ett sätt att visa spektrumförändringar över tiden Formanttransitioner Formanttransitioner För en klusil konsonant är talröret helt stängt i slutningskede och inget ljud kommer ur munnen Men när öppningen sker så ändras resonanser i talröret snabbt. Dessa förändringar kallas formanttransitioner Första formanten ses som en stigande transition efter en klusil Riktning på andra och tredje formanternas transitioner beror på vilken klusil det gäller (artikulationstället) samt på vilken vokal som följer 8

Datorer och tal Digital Signalbehandling Hur kommer ljudet in i datorn? Analog till digital konvertering av den akustiska signalen Vad kan man göra med datorn rörande tal? Talanalys Talsyntes Taligenkänning Talarigenkänning m.m. Analoga och digitala signaler Ljudvågor är analoga, kontinuerliga signaler Datorer använder bits (binary digits) för att kunna använda ljudet måste det digitaliseras och representeras som en diskret signal (stegvis signal). A/D omvandling Den analoga talsignalen omvandlas till en digital signal (till siffror) som en dator kan behandla Omvandlingen av en kontinuerlig signal till diskret signal sker genom: Sampling - mätning av amplituden med jämna tidsmellanrum Kvantifiering - Hur många amplitudsteg ska man ha? Den digitala representationen (siffrorna) modifieras sedan för att normalisera ljudvolymen och ta bort bakgrundsljud/brus Sampling Tar värden längs tidsaxeln (x). mätning av amplituden med jämna tidsmellanrum Uppdelning av signalen i diskreta punkter i tiden. Begränsar antalet decimaler på tidsaxeln Delar upp signalen i tidsfönster Sampling rate Antal gånger per sekund som vi samplar Hur ofta måste vi sampla för att fånga signalens info? Minst två gånger per period för att fånga periodicitet och därmed frekvensen Dubbelt så många värden som högsta frekvensen i signalen 200 gånger/s för att fånga en 100Hz-signal dvs med 200Hz sampling rate Den högsta frekvens som kan fångas vid en viss sampling rate kallas Nyquist-frekvensen ½ sampling rate För att kunna fånga en viss frekvens måste vi sampla med dubbla frekvensen Exempel på sampling rates: CD-skivor 44kHz 8 khz vanligt för tal via telefoni, ger 4khz Nyquist dvs 4khz är högsta frekvensen som fångas Rate 8khz 8000 samplingar per sekund Fångar dock inte alla frekvenser i talljud t ex högsta frekvenser i s -ljudet Vid diktering 16kHz Idealt för tal 20 khz 9

Kvantifiering För att kunna återge ljudets amplitud måste vi veta var längs y-axeln vi ska rita in det vid varje samplad tidpunkt Avläsning av amplituden vid varje samplingspunkt, med mer eller mindre noggrannhet begränsa antalet decimaler på amplitudaxeln Beroende av bitsnumret som väljs för lagring Ju fler nivåer (y-värden) desto bättre kan ljudets amplitud efterliknas Ju högre precision desto mer informationsmängd men också mer utrymme! Kvantifiering innebär att vi förlorar information och precision (quantization noice). Omöjligt att spara obegränsat antal steg forts. Vanligt - 8 el. 16 bitar (dvs. 1 el. 2 byte per sample) -> kallas ofta upplösning eller bitdjupet. 8 bitar ger 256 nivåer (-128 till +127), 16 bitar 65536 nivåer (-32768 till +32767) Telefon - 8bits/sample Väl digitaliserat kan man: Filtrera ljudet Analysera ljudet Förändra ljudet Försöka återskapa ljudet vad man gör för signalbehandling beror på vad man ska ha det till: ASR talarspecifika parametrar ointressanta, kanalvariabilitet ska räknas bort TTS om vi ska använda det i TTS så ska olika ljudvolymer neutraliseras Från en signalrepresentation kan vi försöka härleda: formanter svarta linjer i spektrogram Visar Starka frekvenskomponenter Hjälper oss att Karakterisera vokaler Hjälper oss att avgöra talarens kön pitch fundamental frequency (f0) Hjälper oss att avgöra talarens kön Grund för att avgöra formanter Det finns olika sätt att behandla den digitaliserade signalen Vi vill konvertera våra databitar till någon typ av spektrala parametrar Separera ut frekvenskomponenter FFT (Fast Fourier Transform) Spektrogram Andra frekvensbaserad representationer: LPC (linear predictive coding), Cepstrum Frekvensanalys (DFT och FFT) Discrete Fourier Transform Används för att göra frekvensanalys av diskreta operiodiska signaler Fast Fourier Transform (Tukey and Cooley 1965) Digital signalbehandlingsmetod för att beräkna Fourier Transform (spektrum) av en signal. Tar en akustisk vågform och ger ett spektrum av dess sinusvågskomponenter Organiserar uträkningen så att man återanvänder data i de komplicerade multiplikationerna - mängden uträkningar blir färre snabbare Eftersom signalen är samplad blir frekvensanalysen från 0 till Nyquist (maximala frekvensen i signalen) - alltså med jämna avstånd enligt samplingsfrekvensen. 10

LPC (linear predictive coding) Waveform and LPC Spectrum for Vowel ae (Figs. 7.21, 7.22) Istället för Fourier transform spektrum som sätter ut alla frekvenskomponenter av en våg så används ofta LPC spektrum som är en smoothad utjämnad version. LPC är ett kodningssätt av spektrum som gör det enklare att se var de spektrala topparna ligger X-axeln visar frekvensen och Y-axeln visar en mätning av frekvenskomponentens styrka (i decibel) Ett LPC-spektrum representeras av en vektor av parametrar, varje formant motsvarar två parametrar plus två extra parametrar. 5 formanter ger 12 parametrar (5*2+2) Principen för LPC-algoritmen bygger på att vilken punkt som helst kan definieras som summan av ett antal tidigare punkter, som i sin tur blivit multiplicerade med passande positiva eller negativa nummer. Amplitude/ Pressure Energy Formants Time Frequency Andra parametermängder Cepstrum: En typ av parametermängd som används är cepstralkoefficienter som beräknas från LPC-koefficienter PLP är en analys som tar LPC parametrar och modifierar dem efter teorier om hörseln Sämre spektral lösning på höga frekvenser Ett ljuds förnimmade styrka är relaterat till intensiteten Prosodisk modifiering av tal Det finns också olika signalbehandlingsmetoder för att modifiera prosodin och durationen hos en signal (används bl a inom talsyntes): PSOLA: pitch-synchronously overlap and add MBROLA.Mer om detta när vi kommer in på talsyntes! 11