Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder Signalmodeller determ. modeller statistiska modeller vågformskodning Syn/hörsel-modeller spatio/temporal modeller maskeringsegenskaper Perceptionsbaserade kodningsmetoder 2

I. Talkodning Tal - kvalitetsnivåer Broadcast quality : AM-radio, ca 10 khz, (>64 kbit/s) Network (toll) quality : fast telefoni, ca 3 khz, (16-64 kbit/s) Communication quality : mobiltelefoni, (4-16 kbit/s) Synthetic quality : talsyntes (< 4 kbit/s) Jämför generell audio HiFi : FM-radio, CD, ca 20 KHz (128-700 kbit/s) 3

Talkodning Historik Vågformskodning (PCM, DPCM) 1926 - PCM föreslogs oberoende av Paul M. Rainey och av Alex Reeves (AT&T Paris) år 1937. Installerades i USAs telenät 1962 1952 - delta modulation, differential PCM 1957 - µ-law kvantisering introduceras - standardiseras för telefoni 1972 (8 KHz * 8 bits = 64 Kbit/s, logaritmisk kvantisering) (G.711) 1974 Adaptiv DPCM (G.726) Modellbaserad kodning 1939 Channel Vocoder (talsyntes) 1984 LPC/CELP vocoder (de flesta kodningsstandarder för talsignaler idag använder någon variant av CELP) 4

Talgenerering lungor (lungs) luftrör (trachea) stämband (vocal cords) luftväg mun (oral tract) luftväg näsa (nasal tract) 5

Talsignalen - vokaler 6

Talsignalen - konsonanter 7

Avancerade talkodare baserar sig på modeller av hur talet genereras: Brusgenerator Vocal tract pitch Pulsgenerator Voiced/unvoiced 8

Exempel på Vocal tract filter Fast filterbank (bandpassfilter) g 1 g 2 BP 1 BP 2 g n BP n 9

1939 Channel vocoder Första modellbaserade talsyntetisatorn utvecklas av Homer Dudley på AT&T labs - VODER 10

Första publika presentationen av VODER 11

Noggrannare modellering av talsignalen Komponenter i talsignalen: spektrala resonanser (formanter, rörliga) periodisk excitation (tonande, grundton ( pitch ) + grundtonskontur brusexcitation (frikativ, tonlös, ingen grundton) transienter ( stop-release bursts ) amplitudmodulation (nasal) timing 12

Vokaler Karaktäriserad av formanter; I allmänhet tonande ( voiced ); Ljudet formas av tungan och läpparna. Exempel på vokaler: a, e, i, o, u, ah, oh. Stämbandsfrekvens: män 50-250Hz, kvinnor upp till 500Hz. Vokaler varar i medel mycket längre än konsonanter. Det mesta av den akustiska energin i talsignalen bärs av vokaler. F1-F2 diagram Formantpositioner 13

Styrbart vocal tract filter Styr-parametrar x V(z) y OVE formant synthesis (Prof. Gunnar Fant, KTH), 1953 14

Kombinera exitationsmodellen enligt tidigare (brus/pulsgenerator) med styrbart filter. Obs: ej att förväxlas med vanlig prediktiv kodning (DPCM)! LPC är en modellbaserad metod medan vanlig prediktiv kodning är en vågformskodningsmetod. 15

Blockschema - LPC kodare 16

1. LPC-parametrar (a i, G): 2. PARCOR (partial correlation coefficients) kan beräknas rekursivt från a i (se Sayood sid 507). Lämpar sig bättre att kvantisera än LPC-parametrarna. 3. LSF (Line spectrum frequences) utgår från inversfiltret 1/V(z) 17

1. Signalen delas lämpligen upp i korta segment (ex.vis 20 ms). 2. För varje segment estimeras vocal tract parametrarna (a i, G) samt pitch och V/UV-tillståndet. Filterparametrarna kan fås genom att minimera en felvarians (jmf beräkning av optimal prediktor). 3. V/UV-estimeringen baseras på energi- och frekvensinnehåll. 4. Pitch-frekvens fås genom att söka efter periodiciteter (typiskt 20-160 samples). 18

V/UV: 1 bit Pitch: 6 bitar Vocal tract: 46 bitar (10+1 parametrar) Synk.: 1 bit Tot: 54 bitar => 2.4 kbit/s 19

1. Byt ut V/UV-exiteringen mot en tabell som innehåller ett stort antal förlagrade exciteringssignaler (jfr VQ): kodbok V(z) 2. Sök efter bästa exiteringssignalen genom att pröva samtliga. Här ges möjlighet att även applicera modell av hörselsinnet. 20

Code Excited Linear Prediction Coding (CELP) Kodning: LPC analys ->V(z) Definiera ett perceptuellt filter W(z). Detta skall tillåta ökat brus vid formantfrekvenserna (maskering!) Syntetisera talet genom att testa varje kodbokssekvens i tur och ordning Beräkna optimala förstärkningen som minimerar den perceptuellt viktade felenergin i varje ram Välj kodbokssekvensen som ger lägsta felet Skicka LPC parametrarna och kodboksindex Avkodning: Ta emot LPC parametrarna och kodboksindex Återsyntetisera talet via V(z) Prestanda: 16kbit/s: MOS=4.2, Delay=1.5 ms, 19 MIPS 8 kbit/s: MOS=4.1, Delay=35 ms, 25 MIPS 2.4kbit/s: MOS=3.3, Delay=45 ms, 20 MIPS 21

Exempel på CELP-kodare G.728: V(z) är ett stort FIR filter (M=50) Kodboken innehåller 127 sekvenser, GSM: Kodboken består av regelbundna pulståg med variabel frekvens och amplitudvärden. MELP: (Mixed exitation linear prediction). Kodbok kombinerad med brusgenerator. 22

Talkodare för hög datatakt (CELP, 5-24 kb/s) Talkodare för låg datatakt (HVXC, < 4 kb/s) Text-to-speech (TTS, talsyntes) Codebook index k g k s(n) x k (n) LPC filter Perceptual w. filter e(n) MPEG-4 CELP-kodare 23

HVXC talkodare för låga datatakter 8 khz sampling, 2 4 kbit/s. Under 1.2 kbit/s i variable rate mode. Kombination av LPC och CELP-kodning baserad på utfallet av FFT-analys. Vektorkvantisering av enveloppen för spektrat. 24

HVXC - blockschema 25

Sammanfattning: kodare avsedda för telefoni (8kHz sampling rate) 26

Principer: Generell ljudkodare (MP3, AAC ) Modifierad generell kodare (SBR, HILN, ) Syntetiskt ljud (SAOL, SASL, MIDI) De flesta av dessa metoder har utvecklats genom MPEG-4 samarbetet. 27

HILN, kodare för låg datatakt (4-16 kbit/s) Harmoniska och individuella toner plus brus delbandskodare Endast en frekvens per delband 28

TTS Text-To-Speech MPEG-4 definerar ett interface, inte särskild TTS funktion SAOL - Structured Audio Orchestra Language SAOL beskriver hur olika instruments skall genereras SASL - Structured Audio Score Language SASL beskriver vilket instrument som skall spela MIDI är en delmängd av SASL 29

Generellt naturligt ljud AAC BSAC TwinVQ HILN (parametric) Naturligt tal CELP HVXC (parametric) Synthetiskt ljud TTS SAOL SASL Sammansättning Mixing Re-sampling 3D-rendering 30

Quality CD General audio (AAC, TwinVQ) FM AM Telephone Cellular Parametric speech (HVXC) Parametric audio (HILN) High quality speech (CELP) 2 4 8 16 32 64 kbit/s 31

Original audio Music coder (TwinVQ) 6 kbit/s Music coder (HILN) 6 kbit/s Speech coder (CELP) 6 kbit/s Speech coder (HVXC) 2 kbit/s Speech Simple music Complex music 32