Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Kodning av tal Kodning av musik MPEG-4 Audio toolbox Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder Signalmodeller determ. modeller statistiska modeller vågformskodning Syn/hörsel-modeller spatio/temporal modeller maskeringsegenskaper Perceptionsbaserade kodningsmetoder 2 I. Talkodning Talkodning Historik Vågformskodning (PCM, DPCM) Tal - kvalitetsnivåer Broadcast quality : AM-radio, ca 10 khz, (>64 kbit/s) Network (toll) quality : fast telefoni, ca 3 khz, (16-64 kbit/s) Communication quality : mobiltelefoni, (4-16 kbit/s) Synthetic quality : talsyntes (< 4 kbit/s) Jämför generell audio HiFi : FM-radio, CD, ca 20 KHz (128-700 kbit/s) 1926 - PCM föreslogs oberoende av Paul M. Rainey och av Alex Reeves (AT&T Paris) år 1937. Installerades i USAs telenät 1962 1952 - delta modulation, differential PCM 1957 - µ-law kvantisering introduceras - standardiseras för telefoni 1972 (8 KHz * 8 bits = 64 Kbit/s, logaritmisk kvantisering) (G.711) 1974 Adaptiv DPCM (G.726) Modellbaserad kodning 1939 Channel Vocoder (talsyntes) 1984 LPC/CELP vocoder (de flesta kodningsstandarder för talsignaler idag använder någon variant av CELP) 3 4 Talgenerering Talsignalen - vokaler lungor (lungs) luftrör (trachea) stämband (vocal cords) luftväg mun (oral tract) luftväg näsa (nasal tract) 5 6 1
Talsignalen - konsonanter Avancerade talkodare baserar sig på modeller av hur talet genereras: Brusgenerator Vocal tract pitch Pulsgenerator Voiced/unvoiced 7 8 Exempel på Vocal tract filter Fast filterbank (bandpassfilter) 1939 Channel vocoder Första modellbaserade talsyntetisatorn utvecklas av Homer Dudley på AT&T labs - VODER g 1 g 2 BP 1 BP 2 g n BP n 9 10 Första publika presentationen av VODER Noggrannare modellering av talsignalen Komponenter i talsignalen: spektrala resonanser (formanter, rörliga) periodisk excitation (tonande, grundton ( pitch ) + grundtonskontur brusexcitation (frikativ, tonlös, ingen grundton) transienter ( stop-release bursts ) amplitudmodulation (nasal) timing 11 12 2
Vokaler Styrbart vocal tract filter Karaktäriserad av formanter; I allmänhet tonande ( voiced ); Ljudet formas av tungan och läpparna. Exempel på vokaler: a, e, i, o, u, ah, oh. Stämbandsfrekvens: män 50-250Hz, kvinnor upp till 500Hz. Vokaler varar i medel mycket längre än konsonanter. Det mesta av den akustiska energin i talsignalen bärs av vokaler. x Styr-parametrar V(z) y OVE formant synthesis (Prof. Gunnar Fant, KTH), 1953 F1-F2 diagram Formantpositioner 13 14 Blockschema - LPC kodare Kombinera exitationsmodellen enligt tidigare (brus/pulsgenerator) med styrbart filter. Obs: ej att förväxlas med vanlig prediktiv kodning (DPCM)! LPC är en modellbaserad metod medan vanlig prediktiv kodning är en vågformskodningsmetod. 15 16 1. Signalen delas lämpligen upp i korta segment (ex.vis 20 ms). 1. LPC-parametrar (a i, G): 2. PARCOR (partial correlation coefficients) kan beräknas rekursivt från a i (se Sayood sid 507). Lämpar sig bättre att kvantisera än LPC-parametrarna. 3. LSF (Line spectrum frequences) utgår från inversfiltret 1/V(z) 2. För varje segment estimeras vocal tract parametrarna (a i, G) samt pitch och V/UV-tillståndet. Filterparametrarna kan fås genom att minimera en felvarians (jmf beräkning av optimal prediktor). 3. V/UV-estimeringen baseras på energi- och frekvensinnehåll. 4. Pitch-frekvens fås genom att söka efter periodiciteter (typiskt 20-160 samples). 17 18 3
V/UV: 1 bit Pitch: 6 bitar Vocal tract: 46 bitar (10+1 parametrar) Synk.: 1 bit Tot: 54 bitar => 2.4 kbit/s 1. Byt ut V/UV-exiteringen mot en tabell som innehåller ett stort antal förlagrade exciteringssignaler (jfr VQ): kodbok V(z) 2. Sök efter bästa exiteringssignalen genom att pröva samtliga. Här ges möjlighet att även applicera modell av hörselsinnet. 19 20 Code Excited Linear Prediction Coding (CELP) Exempel på CELP-kodare Kodning: LPC analys ->V(z) Definiera ett perceptuellt filter W(z). Detta skall tillåta ökat brus vid formantfrekvenserna (maskering!) Syntetisera talet genom att testa varje kodbokssekvens i tur och ordning Beräkna optimala förstärkningen som minimerar den perceptuellt viktade felenergin i varje ram Välj kodbokssekvensen som ger lägsta felet Skicka LPC parametrarna och kodboksindex Avkodning: Ta emot LPC parametrarna och kodboksindex Återsyntetisera talet via V(z) Prestanda: 16kbit/s: MOS=4.2, Delay=1.5 ms, 19 MIPS 8 kbit/s: MOS=4.1, Delay=35 ms, 25 MIPS 2.4kbit/s: MOS=3.3, Delay=45 ms, 20 MIPS G.728: V(z) är ett stort FIR filter (M=50) Kodboken innehåller 127 sekvenser, GSM: Kodboken består av regelbundna pulståg med variabel frekvens och amplitudvärden. MELP: (Mixed exitation linear prediction). Kodbok kombinerad med brusgenerator. 21 22 Talkodare för hög datatakt (CELP, 5-24 kb/s) Talkodare för låg datatakt (HVXC, < 4 kb/s) Text-to-speech (TTS, talsyntes) Codebook index k x k (n) g k LPC filter s(n) Perceptual w. filter e(n) HVXC talkodare för låga datatakter 8 khz sampling, 2 4 kbit/s. Under 1.2 kbit/s i variable rate mode. Kombination av LPC och CELP-kodning baserad på utfallet av FFT-analys. Vektorkvantisering av enveloppen för spektrat. MPEG-4 CELP-kodare 23 24 4
HVXC - blockschema Sammanfattning: kodare avsedda för telefoni (8kHz sampling rate) 25 26 Principer: Generell ljudkodare (MP3, AAC ) HILN, kodare för låg datatakt (4-16 kbit/s) Harmoniska och individuella toner plus brus delbandskodare Endast en frekvens per delband Modifierad generell kodare (SBR, HILN, ) Syntetiskt ljud (SAOL, SASL, MIDI) De flesta av dessa metoder har utvecklats genom MPEG-4 samarbetet. 27 28 TTS Text-To-Speech MPEG-4 definerar ett interface, inte särskild TTS funktion SAOL - Structured Audio Orchestra Language SAOL beskriver hur olika instruments skall genereras SASL - Structured Audio Score Language SASL beskriver vilket instrument som skall spela MIDI är en delmängd av SASL Generellt naturligt ljud AAC BSAC TwinVQ HILN (parametric) Naturligt tal CELP HVXC (parametric) Synthetiskt ljud TTS SAOL SASL Sammansättning Mixing Re-sampling 3D-rendering 29 30 5
Quality CD FM General audio (AAC, TwinVQ) Parametric audio (HILN) Speech Original audio Music coder (TwinVQ) 6 kbit/s Music coder (HILN) 6 kbit/s Speech coder (CELP) 6 kbit/s Speech coder (HVXC) 2 kbit/s AM Telephone Cellular Parametric speech (HVXC) High quality speech (CELP) 2 4 8 16 32 64 kbit/s Simple music Complex music 31 32 6