Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Relevanta dokument
I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Föreläsning 12. Modellbaserad ljudkodning. Modellbaserad bildkodning. Utblickar Mediakommunikation över Internet Multi-view video

Analys/syntes-kodning

Föreläsning 10: Ljudkodning ( Audio Coding )

4/27/12. Fönstring i MDCT. Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck

Föreläsning 1: Bild- och ljudkodning

Digital signalbehandling Digitalt Ljud

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå(loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

TALKODNING - från tal till syntes

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Att sända information mellan datorer. Information och binärdata

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå (loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Kapitel 2 o 3. Att skicka signaler på en länk. (Maria Kihl)

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Grundläggande ljud- och musikteori

Optimal Signalbehandling Labbhandledning

Optimal Signal Processing Laboratory work

SMS047 Mediakodning. Introduktion. Frank Sjöberg. Introduktion. Introduktion

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Signaler och system, IT3

2 Vad händer när man ringer? 2 Vad händer när man ringer?

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Ljudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:

Föreläsning 7: Bild- och videokodning

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Lab 4: Digital transmission Redigerad av Niclas Wadströmer. Mål. Uppstart. Genomförande. TSEI67 Telekommunikation

Spektrala Transformer

Ljudteknik 5p tch Hz from Scra

Kapitel 13: (Maria Kihl)

Digital kommunikation. Maria Kihl

Spektrala Transformer

Skillnader vokaler - konsonanter. Konsonanters akustiska mönster. Vokaler. Konsonanter. Konsonantklasser. Sonoranter

INNEHÅLL. Per Wallander. GSM-boken. Per Wallander

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Analoga och Digitala Signaler. Analogt och Digitalt. Analogt. Digitalt. Analogt få komponenter låg effektförbrukning

Grundläggande signalbehandling

Digital kommunikation. Maria Kihl

Ämnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle

Elektriska kretsar och fält - några exempel på tillämpningar

Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

Skurlängdskodning. aaaabbbbbbbccbbbbaaaa. Man beskriver alltså sekvensen med ett annat alfabet än det ursprungliga.

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 1

EXAMENSARBETE. Skillnader mellan elgitarrtoner vid olika tonhöjd av LAME MP3-kodning. Henrik Alakangas. Filosofie kandidatexamen Ljudteknik

Övningar modul 1 - Dataöverföring & fysisk infrastruktur

Kapitel 3 o 4 Att skicka signaler på en länk Tillförlitlig dataöverföring. Att göra. Att sända information mellan datorer

Elektronik Dataomvandlare

Analogt och Digital. Viktor Öwall. Elektronik

Elektronisk ljudalstring. Synthesizers. Workstations, arbetsstationer & MIDI

Digital Signalbehandling i Audio/Video

Telefoninäten. Jens A Andersson

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

Kihl & Andersson: , 3.1-2, (ej CDM) Stallings: 3.1-4, 5.1, 5.2, 5.3, 8.1, 8.2

6. Blandade uppgifter

3. Metoder för mätning av hörförmåga

TNMK054 - LJUDTEKNIK 1 FILTER OCH VCF

Kapitel 13: Telefoninäten. Spanning Tree. Jämförelse med OSI-modellen. Jens A Andersson (Maria Kihl)

Kapitel 3 o 4. Tillförlitlig dataöverföring. (Maria Kihl)

Csound. Csound exempel

AD-/DA-omvandlare. Digitala signaler, Sampling och Sample-Hold

TPPA-B(2): Akustisk fonetik I. Praktisk info. Kurslitteratur

Elektronik. Dataomvandlare

Kommunikationssystem grundkurs, 2G1501 Övningar modul 1 Dataöverföring & fysisk infrastruktur 1 Dataöverföring

Filformat och lagring

MEDIESIGNALER INTRODUKTION

Vanliga frågor om Smart Pianist

A/D D/A omvandling. Lars Wallman. Lunds Universitet / LTH / Institutionen för Mätteknik och Industriell Elektroteknik

Digital Signalbehandling i Audio/Video

Datormusik - idéer och verktyg

Praktisk info. T-PPA 2 Lektion 1: Akustiska elementa

Lab 1 Analog modulation

Akustiska Elementa och Digital Signalbehandling

Föreläsning 2. Transmissionslänk. Repetition: Internetprotokollens skikt. Mål

Svensk Bruksanvisning

Digital signalbehandling fk Adaptiv filtrering

INT 3 F4. Bildkomprimering. Run Length Encoding. Medieteknik Del2. Komprimering, ljud och rörliga bilder. Olika algoritmer för bildkomprimering:

Lösningar ETS052 Datorkommunikation,

Niklas Lindvall Artificiell intelligens II Ht

Tentamen i Signaler och kommunikation, ETT080

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4

Lab lanserade R.A. Moog Inc. en ny synt: Minimoog. Den var designad av Bill Hemsath och Robert Moog och kom att revolutionera musikhistorien.

Artificial)Intelligence) Taligenkänning)

Datorkommunikation. Examination Översikt. Kurslitteratur. Datorkommunikation. Kursens hemsida

Akustisk fonetik. Akustiska elementa. Ljudvågor. Ljudvågor. Talkommunikationskedjan. Talkommunikationskedjan

Talets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst David House: Talets fysiologi, akustisk fonetik VT16.

Paper or screen. Systemlagret. Vision technology. Audio technology. Current loudspeakers and sound equipment is good enough?

Läs anvisningarna noga, och följ dem!

Hambley avsnitt

Elektronik Dataomvandlare

Hur kan man mäta hörsel? Ann-Christin Johnson Karolinska Institutet, Stockholm, Sverige

Transkript:

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder Signalmodeller determ. modeller statistiska modeller vågformskodning Syn/hörsel-modeller spatio/temporal modeller maskeringsegenskaper Perceptionsbaserade kodningsmetoder 2

I. Talkodning Tal - kvalitetsnivåer Broadcast quality : AM-radio, ca 10 khz, (>64 kbit/s) Network (toll) quality : fast telefoni, ca 3 khz, (16-64 kbit/s) Communication quality : mobiltelefoni, (4-16 kbit/s) Synthetic quality : talsyntes (< 4 kbit/s) Jämför generell audio HiFi : FM-radio, CD, ca 20 KHz (128-700 kbit/s) 3

Talkodning Historik Vågformskodning (PCM, DPCM) 1926 - PCM föreslogs oberoende av Paul M. Rainey och av Alex Reeves (AT&T Paris) år 1937. Installerades i USAs telenät 1962 1952 - delta modulation, differential PCM 1957 - µ-law kvantisering introduceras - standardiseras för telefoni 1972 (8 KHz * 8 bits = 64 Kbit/s, logaritmisk kvantisering) (G.711) 1974 Adaptiv DPCM (G.726) Modellbaserad kodning 1939 Channel Vocoder (talsyntes) 1984 LPC/CELP vocoder (de flesta kodningsstandarder för talsignaler idag använder någon variant av CELP) 4

Talgenerering lungor (lungs) luftrör (trachea) stämband (vocal cords) luftväg mun (oral tract) luftväg näsa (nasal tract) 5

Talsignalen - vokaler 6

Talsignalen - konsonanter 7

Avancerade talkodare baserar sig på modeller av hur talet genereras: Brusgenerator Vocal tract pitch Pulsgenerator Voiced/unvoiced 8

Exempel på Vocal tract filter Fast filterbank (bandpassfilter) g 1 g 2 BP 1 BP 2 g n BP n 9

1939 Channel vocoder Första modellbaserade talsyntetisatorn utvecklas av Homer Dudley på AT&T labs - VODER 10

Första publika presentationen av VODER 11

Noggrannare modellering av talsignalen Komponenter i talsignalen: spektrala resonanser (formanter, rörliga) periodisk excitation (tonande, grundton ( pitch ) + grundtonskontur brusexcitation (frikativ, tonlös, ingen grundton) transienter ( stop-release bursts ) amplitudmodulation (nasal) timing 12

Vokaler Karaktäriserad av formanter; I allmänhet tonande ( voiced ); Ljudet formas av tungan och läpparna. Exempel på vokaler: a, e, i, o, u, ah, oh. Stämbandsfrekvens: män 50-250Hz, kvinnor upp till 500Hz. Vokaler varar i medel mycket längre än konsonanter. Det mesta av den akustiska energin i talsignalen bärs av vokaler. F1-F2 diagram Formantpositioner 13

Styrbart vocal tract filter Styr-parametrar x V(z) y OVE formant synthesis (Prof. Gunnar Fant, KTH), 1953 14

Kombinera exitationsmodellen enligt tidigare (brus/pulsgenerator) med styrbart filter. Obs: ej att förväxlas med vanlig prediktiv kodning (DPCM)! LPC är en modellbaserad metod medan vanlig prediktiv kodning är en vågformskodningsmetod. 15

Blockschema - LPC kodare 16

1. LPC-parametrar (a i, G): 2. PARCOR (partial correlation coefficients) kan beräknas rekursivt från a i (se Sayood sid 507). Lämpar sig bättre att kvantisera än LPC-parametrarna. 3. LSF (Line spectrum frequences) utgår från inversfiltret 1/V(z) 17

1. Signalen delas lämpligen upp i korta segment (ex.vis 20 ms). 2. För varje segment estimeras vocal tract parametrarna (a i, G) samt pitch och V/UV-tillståndet. Filterparametrarna kan fås genom att minimera en felvarians (jmf beräkning av optimal prediktor). 3. V/UV-estimeringen baseras på energi- och frekvensinnehåll. 4. Pitch-frekvens fås genom att söka efter periodiciteter (typiskt 20-160 samples). 18

V/UV: 1 bit Pitch: 6 bitar Vocal tract: 46 bitar (10+1 parametrar) Synk.: 1 bit Tot: 54 bitar => 2.4 kbit/s 19

1. Byt ut V/UV-exiteringen mot en tabell som innehåller ett stort antal förlagrade exciteringssignaler (jfr VQ): kodbok V(z) 2. Sök efter bästa exiteringssignalen genom att pröva samtliga. Här ges möjlighet att även applicera modell av hörselsinnet. 20

Code Excited Linear Prediction Coding (CELP) Kodning: LPC analys ->V(z) Definiera ett perceptuellt filter W(z). Detta skall tillåta ökat brus vid formantfrekvenserna (maskering!) Syntetisera talet genom att testa varje kodbokssekvens i tur och ordning Beräkna optimala förstärkningen som minimerar den perceptuellt viktade felenergin i varje ram Välj kodbokssekvensen som ger lägsta felet Skicka LPC parametrarna och kodboksindex Avkodning: Ta emot LPC parametrarna och kodboksindex Återsyntetisera talet via V(z) Prestanda: 16kbit/s: MOS=4.2, Delay=1.5 ms, 19 MIPS 8 kbit/s: MOS=4.1, Delay=35 ms, 25 MIPS 2.4kbit/s: MOS=3.3, Delay=45 ms, 20 MIPS 21

Exempel på CELP-kodare G.728: V(z) är ett stort FIR filter (M=50) Kodboken innehåller 127 sekvenser, GSM: Kodboken består av regelbundna pulståg med variabel frekvens och amplitudvärden. MELP: (Mixed exitation linear prediction). Kodbok kombinerad med brusgenerator. 22

Talkodare för hög datatakt (CELP, 5-24 kb/s) Talkodare för låg datatakt (HVXC, < 4 kb/s) Text-to-speech (TTS, talsyntes) Codebook index k g k s(n) x k (n) LPC filter Perceptual w. filter e(n) MPEG-4 CELP-kodare 23

HVXC talkodare för låga datatakter 8 khz sampling, 2 4 kbit/s. Under 1.2 kbit/s i variable rate mode. Kombination av LPC och CELP-kodning baserad på utfallet av FFT-analys. Vektorkvantisering av enveloppen för spektrat. 24

HVXC - blockschema 25

Sammanfattning: kodare avsedda för telefoni (8kHz sampling rate) 26

Principer: Generell ljudkodare (MP3, AAC ) Modifierad generell kodare (SBR, HILN, ) Syntetiskt ljud (SAOL, SASL, MIDI) De flesta av dessa metoder har utvecklats genom MPEG-4 samarbetet. 27

HILN, kodare för låg datatakt (4-16 kbit/s) Harmoniska och individuella toner plus brus delbandskodare Endast en frekvens per delband 28

TTS Text-To-Speech MPEG-4 definerar ett interface, inte särskild TTS funktion SAOL - Structured Audio Orchestra Language SAOL beskriver hur olika instruments skall genereras SASL - Structured Audio Score Language SASL beskriver vilket instrument som skall spela MIDI är en delmängd av SASL 29

Generellt naturligt ljud AAC BSAC TwinVQ HILN (parametric) Naturligt tal CELP HVXC (parametric) Synthetiskt ljud TTS SAOL SASL Sammansättning Mixing Re-sampling 3D-rendering 30

Quality CD General audio (AAC, TwinVQ) FM AM Telephone Cellular Parametric speech (HVXC) Parametric audio (HILN) High quality speech (CELP) 2 4 8 16 32 64 kbit/s 31

Original audio Music coder (TwinVQ) 6 kbit/s Music coder (HILN) 6 kbit/s Speech coder (CELP) 6 kbit/s Speech coder (HVXC) 2 kbit/s Speech Simple music Complex music 32