Föreläsning 12. Modellbaserad ljudkodning. Modellbaserad bildkodning. Utblickar Mediakommunikation över Internet Multi-view video

Relevanta dokument
I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Analys/syntes-kodning

4/27/12. Fönstring i MDCT. Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck

Föreläsning 10: Ljudkodning ( Audio Coding )

Föreläsning 1: Bild- och ljudkodning

Digital signalbehandling Digitalt Ljud

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå(loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Föreläsning 7: Bild- och videokodning

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

TALKODNING - från tal till syntes

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Att sända information mellan datorer. Information och binärdata

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Kapitel 2 o 3. Att skicka signaler på en länk. (Maria Kihl)

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå (loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Människans hörsel är ganska väl studerad och det finns bra modeller för den.

2 Vad händer när man ringer? 2 Vad händer när man ringer?

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Optimal Signal Processing Laboratory work

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

SMS047 Mediakodning. Introduktion. Frank Sjöberg. Introduktion. Introduktion

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Signaler och system, IT3

Optimal Signalbehandling Labbhandledning

Lab 4: Digital transmission Redigerad av Niclas Wadströmer. Mål. Uppstart. Genomförande. TSEI67 Telekommunikation

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Grundläggande ljud- och musikteori

Digital kommunikation. Maria Kihl

Kihl & Andersson: , 3.1-2, (ej CDM) Stallings: 3.1-4, 5.1, 5.2, 5.3, 8.1, 8.2

Spektrala Transformer

Kapitel 13: (Maria Kihl)

Digital kommunikation. Maria Kihl

Kapitel 3 o 4 Att skicka signaler på en länk Tillförlitlig dataöverföring. Att göra. Att sända information mellan datorer

Lab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Spektrala Transformer

Kapitel 3 o 4. Tillförlitlig dataöverföring. (Maria Kihl)

Skurlängdskodning. aaaabbbbbbbccbbbbaaaa. Man beskriver alltså sekvensen med ett annat alfabet än det ursprungliga.

Telefoninäten. Jens A Andersson

Ljudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:

Kapitel 13: Telefoninäten. Spanning Tree. Jämförelse med OSI-modellen. Jens A Andersson (Maria Kihl)

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Kommunikationssystem grundkurs, 2G1501 Övningar modul 1 Dataöverföring & fysisk infrastruktur 1 Dataöverföring

Tillförlitlig dataöverföring Egenskaper hos en länk Accessmetoder. Jens A Andersson

Övningar modul 1 - Dataöverföring & fysisk infrastruktur

INNEHÅLL. Per Wallander. GSM-boken. Per Wallander

Profilen Kommunikation för Y, Yi, D & IT

Datorkommunikation. Examination Översikt. Kurslitteratur. Datorkommunikation. Kursens hemsida

Paper or screen. Systemlagret. Vision technology. Audio technology. Current loudspeakers and sound equipment is good enough?

Digital Signalbehandling i Audio/Video

Csound. Csound exempel

Elektriska kretsar och fält - några exempel på tillämpningar

Digital signalbehandling fk Adaptiv filtrering

Filformat och lagring

Skillnader vokaler - konsonanter. Konsonanters akustiska mönster. Vokaler. Konsonanter. Konsonantklasser. Sonoranter

EXAMENSARBETE. Skillnader mellan elgitarrtoner vid olika tonhöjd av LAME MP3-kodning. Henrik Alakangas. Filosofie kandidatexamen Ljudteknik

INT 3 F4. Bildkomprimering. Run Length Encoding. Medieteknik Del2. Komprimering, ljud och rörliga bilder. Olika algoritmer för bildkomprimering:

Lab 1 Analog modulation

Lösningar till tentan i ETS052 Datorkommunikation

Grundläggande signalbehandling

Ljudteknik 5p tch Hz from Scra

FÖRELÄSNING 13: Analoga o p. 1 Digitala filter. Kausalitet. Stabilitet. Ex) på användning av analoga p. 2 filter = tidskontinuerliga filter

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

Elektronisk ljudalstring. Synthesizers. Workstations, arbetsstationer & MIDI

Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

Digital Signalbehandling i Audio/Video

Kodning av ansiktstextur med oberoende komponenter

Elektronik Dataomvandlare

Performance QoS Köteori. Jens A Andersson (Maria Kihl)

Dator- och telekommunikation. Dator- och telekommunikation. Radionät. Fasta nät. Kapacitet. Tjänster. Radionät Protokoll Kapacitet Tjänster

Trådlös kommunikation En introduktion av Open Systems Engineering AB

Kihl & Andersson: , 4.5 Stallings: , , (7.3)

Ämnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle

A/D D/A omvandling. Lars Wallman. Lunds Universitet / LTH / Institutionen för Mätteknik och Industriell Elektroteknik

Analoga och Digitala Signaler. Analogt och Digitalt. Analogt. Digitalt. Analogt få komponenter låg effektförbrukning

Hambley avsnitt

Sammanfattning TSBB16

Profilen Kommunikation för Y, Yi, D & IT. Profilansvarig: Erik G. Larsson Professor, ISY/Kommunikationssystem

Model View Controller. Objekt-orienterad programmering och design (DIT952) Niklas Broberg, 2016

Niklas Lindvall Artificiell intelligens II Ht

Föreläsning 2. Transmissionslänk. Repetition: Internetprotokollens skikt. Mål

Analogt och Digital. Viktor Öwall. Elektronik

Läs anvisningarna noga, och följ dem!

HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish

Examination Kurslitteratur

6. Blandade uppgifter

Hambley avsnitt

Observer Pattern och MVC. Objekt-orienterad programmering och design Alex Gerdes, 2016

TNMK054 - LJUDTEKNIK 1 FILTER OCH VCF

Audio & Videoteknik 2D2021, 2D1518

Dator- och telekommunikation (ETS601) Höstterminen 2016

Få dina bilder att tala

Elektronik 2018 EITA35

Videosignalen består av en sekvens av bilder, typiskt 24, 25 eller 30 bilder i sekunden.

Transkript:

Föreläsning 12 Modellbaserad ljudkodning Modellbaserad bildkodning Utblickar Mediakommunikation över Internet Multi-view video 1

Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder Signalmodeller determ. modeller statistiska modeller vågformskodning Syn/hörsel-modeller spatio/temporal modeller maskeringsegenskaper Perceptionsbaserade kodningsmetoder 2

Modellbaserad Ljudkodning Kodning av tal Kodning av musik MPEG-4 Audio toolbox 3

I. Talkodning Tal - kvalitetsnivåer Broadcast quality : AM-radio, ca 10 khz, (>64 kbit/s) Network (toll) quality : fast telefoni, ca 3 khz, (16-64 kbit/s) Communication quality : mobiltelefoni, (4-16 kbit/s) Synthetic quality : talsyntes (< 4 kbit/s) Jämför generell audio HiFi : FM-radio, CD, ca 20 KHz (128-700 kbit/s) 4

Talkodning Historik Vågformskodning (PCM, DPCM) 1926 - PCM föreslogs oberoende av Paul M. Rainey och av Alex Reeves (AT&T Paris) år 1937. Installerades i USAs telenät 1962 1952 - delta modulation, DPCM 1957 - -law kvantisering introduceras - standardiseras för telefoni 1972 (8 KHz * 8 bits = 64 Kbit/s, logaritmisk kvantisering) (G.711) 1974 Adaptiv DPCM (G.726) Modellbaserad kodning 1939 Channel Vocoder (talsyntes) 1984 LPC/CELP vocoder (de flesta kodningsstandarder för talsignaler idag använder någon variant av CELP) 5

Talgenerering lungor (lungs) luftrör (trachea) stämband (vocal cords) luftväg mun (oral cavity) luftväg näsa (nasal cavity) 6

Talsignalen - vokaler 7

Talsignalen - konsonanter 8

Modellbaserad talkodning Avancerade talkodare baserar sig på modeller av hur talet genereras: Brusgenerator Vocal tract pitch Pulsgenerator Voiced/unvoiced 9

Exempel på Vocal tract filter Fast filterbank (bandpassfilter) g 1 g 2 BP 1 BP 2 g n BP n 10

1939 Channel vocoder Första modellbaserade talsyntetisatorn utvecklas av Homer Dudley på AT&T labs - VODER 11

Första publika presentationen av VODER (från radiosändning 1939) 12

Noggrannare modellering av talsignalen Komponenter i talsignalen: spektrala resonanser (formanter, rörliga) periodisk excitation (tonande, grundton ( pitch ) + grundtonskontur brusexcitation (frikativ, tonlös, ingen grundton) transienter ( stop-release bursts ) amplitudmodulation (nasal) timing 13

Vokaler Karaktäriserad av formanter; I allmänhet tonande ( voiced ); Ljudet formas av tungan och läpparna. Exempel på vokaler: a, e, i, o, u, ah, oh. Stämbandsfrekvens: män 50-250Hz, kvinnor upp till 500Hz. Vokaler varar i medel mycket längre än konsonanter. Det mesta av den akustiska energin i talsignalen bärs av vokaler. F1-F2 diagram Formantpositioner 14

Styrbart vocal tract filter Styr-parametrar x V(z) y OVE formant synthesis (Prof. Gunnar Fant, KTH), 1953 15

LPC ( Linear Predictive Coding ) Kombinera exitationsmodellen enligt tidigare (brus/pulsgenerator) med styrbart filter. Obs: ej att förväxlas med vanlig prediktiv kodning (DPCM)! LPC är en modellbaserad metod medan vanlig prediktiv kodning är en vågformskodningsmetod. 16

Blockschema - LPC kodare 17

Representation av styrbart vocal tract filter 1. LPC-parametrar (a i, G): y n M i 1 a i y n i Gx n 2. PARCOR (partial correlation coefficients) kan beräknas rekursivt från a i (se Sayood sid 507). Lämpar sig bättre att kvantisera än LPC-parametrarna. 3. LSF (Line spectrum frequences) utgår från inversfiltret 1/V(z) 18

Parameterestimering (se kursens hemsida för mer detaljer) 1. Signalen delas lämpligen upp i korta segment (ex.vis 20 ms). 2. För varje segment estimeras vocal tract parametrarna (a i, G) samt pitch och V/UV-tillståndet. Filterparametrarna kan fås genom att minimera en felvarians (jmf beräkning av optimal prediktor). 3. V/UV-estimeringen baseras på energi- och frekvensinnehåll. 4. Pitch-frekvens fås genom att söka efter periodiciteter (typiskt 20-160 samples). 19

Ex. Kodning av parametrarna (LPC10, 1984) V/UV: 1 bit Pitch: 6 bitar Vocal tract: 46 bitar (10+1 parametrar) Synk.: 1 bit Tot: 54 bitar => 2.4 kbit/s 20

CELP ( Code excited linear prediction ) 1. Byt ut V/UV-exiteringen mot en tabell som innehåller ett stort antal förlagrade exciteringssignaler (jfr VQ): kodbok V(z) 2. Sök efter bästa exiteringssignalen genom att pröva samtliga. Här ges möjlighet att även applicera modell av hörselsinnet. 21

Code Excited Linear Prediction Coding (CELP) Kodning: LPC analys ->V(z) Definiera ett perceptuellt filter W(z). Detta skall tillåta ökat brus vid formantfrekvenserna (maskering!) Syntetisera talet genom att testa varje kodbokssekvens i tur och ordning Beräkna optimala förstärkningen som minimerar den perceptuellt viktade felenergin i varje ram Välj kodbokssekvensen som ger lägsta felet Skicka LPC parametrarna och kodboksindex Avkodning: Ta emot LPC parametrarna och kodboksindex Återsyntetisera talet via V(z) Prestanda: 16kbit/s: MOS=4.2, Delay=1.5 ms, 19 MIPS 8 kbit/s: MOS=4.1, Delay=35 ms, 25 MIPS 2.4kbit/s: MOS=3.3, Delay=45 ms, 20 MIPS 22

Exempel på CELP-kodare G.728: V(z) är ett stort FIR filter (M=50) Kodboken innehåller 127 sekvenser, GSM: Kodboken består av regelbundna pulståg med variabel frekvens och amplitudvärden. MELP: (Mixed exitation linear prediction). Kodbok kombinerad med brusgenerator. 23

MPEG-4 s talkodare Talkodare för hög datatakt (CELP, 5-24 kb/s) Talkodare för låg datatakt (HVXC, < 4 kb/s) Text-to-speech (TTS, talsyntes) Codebook index k g k s(n) x k (n) LPC filter Perceptual w. filter e(n) MPEG-4 CELP-kodare 24

HVXC Harmonic Vector exitation Coder HVXC talkodare för låga datatakter 8 khz sampling, 2 4 kbit/s. Under 1.2 kbit/s i variable rate mode. Kombination av LPC och CELP-kodning baserad på utfallet av FFT-analys. Vektorkvantisering av enveloppen för spektrat. 25

HVXC - blockschema 26

Sammanfattning: kodare avsedda för telefoni (8kHz sampling rate) 27

II. MPEG-4 s musikkodare Principer: Generell ljudkodare (MP3, AAC ) Modifierad generell kodare (SBR, HILN, ) Syntetiskt ljud (SAOL, SASL, MIDI) 28

HILN Harmonic and Individual Lines and Noise HILN, kodare för låg datatakt (4-16 kbit/s) Harmoniska och individuella toner plus brus delbandskodare Endast en frekvens per delband 29

Syntetiskt ljud TTS Text-To-Speech MPEG-4 definerar ett interface, inte särskild TTS funktion SAOL - Structured Audio Orchestra Language SAOL beskriver hur olika instruments skall genereras SASL - Structured Audio Score Language SASL beskriver vilket instrument som skall spela MIDI är en delmängd av SASL 30

III. MPEG-4 Audio toolbox Generellt naturligt ljud AAC BSAC TwinVQ HILN (parametric) Naturligt tal CELP HVXC (parametric) Syntetiskt ljud TTS SAOL SASL Sammansättning Mixing Re-sampling 3D-rendering 31

MPEG-4: Kodning av ljud Quality CD General audio (AAC, TwinVQ) FM AM Telephone Cellular Parametric speech (HVXC) Parametric audio (HILN) High quality speech (CELP) 2 4 8 16 32 64 kbit/s 32

Kodning av ljud: Demo Original audio Music coder (TwinVQ) 6 kbit/s Music coder (HILN) 6 kbit/s Speech coder (CELP) 6 kbit/s Speech coder (HVXC) 2 kbit/s Speech Simple music Complex music 33

Modellbaserad bildkodning Exempel: ansiktsanimation 34

Kodning och animation av ansikten Det mänskliga ansiktet är ett mycket speciellt visuellt objekt. Människor är särskilt känsliga för felaktigheter i ansikten eller onaturliga rörelser. Människor är bra på att känna igen ansikten. 35

Kodningsprincip Finn ansiktet i bilden Separera ut textur Estimera 3D-form Estimera rörelser Avkodaren syntetiserar ansiktsobjektet och animerar det. 36

Exempel: rörelseestimering 37

Modellbaserad kodning av ansikten Image sequence Shape Texture Animation parameters 38

Avkodning Shape Texture 39

Ansiktsparametrar FFPs: MPEG-4 definierar 84 facial feature points. FAPs: Facial Animation Parameters flyttar på FFPs. FDP Points: 3D-koordinater för FFPs. Beskriver ansiktsformen FDP Texture: Bildinformation för hud, tänder, ögon och tunga. Överlagras på 3Dmodellen. 40

FAP - Facial Animation Parameters Låg-nivå FAPs Förflyttningar av FAPs (63 parametrar) Rotation (3 parametrar) Viseme Skapar ansiktsrörelser från fonem. Ansiktsmodellen kan animeras från ett stycke text eller audio. Ansiktsuttryck Avkodaren kan syntetisera olika ansiktsuttryck (glad, förvånad, arg, rädd, äcklad, ledsen). 41

Demo: Peter & Peter (ca 1 kb/s) Video by Peter Eisert (UniErlangen) 42

Demo: Peter & Bill Video by Peter Eisert (UniErlangen) 43

Exempel: Text-till-tal med ansiktsanimering Text TTS FDP Face model by J. Ostermann (AT&T). 44

Utblickar Audio och video över Internet Multi-view video coding 45

Audio och Video över Internet Internet är en rätt dålig kommunikationskanal för realtidsinformation Slumpmässig fördröjning Slumpmässiga paketförluster Varierande datatakt Lösning 1: Buffert på klientsidan Minskar risken för avbrott Jämnar ut fördröjningarna Möjliggör återsändning av förlorade paket Ger lång fördröjning (tiotals sekunder) Lösning 2: Kodning med varierande datatakt Återkopplar till sändaren Anpassning sker till hastighetsförändringar i nätet Lösning 3: Multiple-Description Coding 46

Multiple-Description Coding (MDC) Princip: Signalen delas upp i flera parallella strömmar. Dessa sänds på olika vägar genom nätet. Förlust av en, eller flera strömmar kan accepteras utan att kvalitén blir för låg. Exempel 1 (audio): Vartannat sampel skickas en väg och vartannat sampel en annan väg. Exempel 2 (video): Bilden subsamplas en faktor 2 i x- och y-led. De 4 delströmmarna skickas olika vägar. Moderna metoder för MDC lägger in lite extra redundans i de olika delströmmarna men ger trots det endast måttlig ökning av datatakten vid full kvalitet. 47

Multi-view video coding (MVC) Samtidig kodning av multipla vyer Mer än 20% reduktion av datatakten kan uppnås i en H.264 kodare genom att utnyttja prediktion mellan vyerna. Tillämpningar inom Free viewpoint TV och 3D-TV (Källa: F. Pereira, IST, Lisbon) 48

H.264: Temporal inter-view prediction structure for MVC 49

Multi-view, 3D coding Textur+djup Ett alternativ till multi-view video är att använda textur+djup 50

3D video 51

Forskning på Avd. Informationskodning Bildkodning/signalbehandlingsmetoder Ansiktsanimering och modellbaserad kodning 3D Video Datorgrafik, Optisk kommunikation Kryptering, organisk elektronik Informationskodning erbjuder exjobb inom samtliga områden, se: http://www.icg.isy.liu.se/exjobb/ 52