4/27/12. Fönstring i MDCT. Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck

Relevanta dokument
Föreläsning 10: Ljudkodning ( Audio Coding )

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå(loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå (loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Föreläsning 7: Bild- och videokodning

Föreläsning 1: Bild- och ljudkodning

I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

SMS047 Mediakodning. Introduktion. Frank Sjöberg. Introduktion. Introduktion

Digital signalbehandling Digitalt Ljud

Grundläggande ljud- och musikteori

Analys/syntes-kodning

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Digital Signalbehandling i Audio/Video

Kurslitteratur. Kompression av ljud och bild. Föreläsningar, preliminärt program. Laborationer. Khalid Sayood, Introduction to Data Compression

Transformkodning Idé: 1. Tag datasekvensen och dela in den i block av storlek N (eller N N om signalen är tvνadimensionell). Transformera dessa block

Föreläsning 12. Modellbaserad ljudkodning. Modellbaserad bildkodning. Utblickar Mediakommunikation över Internet Multi-view video

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Spektrala Transformer

Kodning med distorsion

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Spektrala Transformer

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Att sända information mellan datorer. Information och binärdata

EXAMENSARBETE. Skillnader mellan elgitarrtoner vid olika tonhöjd av LAME MP3-kodning. Henrik Alakangas. Filosofie kandidatexamen Ljudteknik

Skurlängdskodning. aaaabbbbbbbccbbbbaaaa. Man beskriver alltså sekvensen med ett annat alfabet än det ursprungliga.

Videosignalen består av en sekvens av bilder, typiskt 24, 25 eller 30 bilder i sekunden.

Digital kommunikation. Maria Kihl

Digital kommunikation. Maria Kihl

Kapitel 2 o 3. Att skicka signaler på en länk. (Maria Kihl)

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

Prislista Rotel

FLAC (Free Lossless Audio Coding)

TSBK35 Kompression av ljud och bild

Aritmetisk kodning. F (0) = 0 Exempel: A = {1, 2, 3} k=1. Källkodning fö 5 p.1/12

Kodning av ansiktstextur med oberoende komponenter

Ämnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle

INT 3 F4. Bildkomprimering. Run Length Encoding. Medieteknik Del2. Komprimering, ljud och rörliga bilder. Olika algoritmer för bildkomprimering:

Kihl & Andersson: , 3.1-2, (ej CDM) Stallings: 3.1-4, 5.1, 5.2, 5.3, 8.1, 8.2

Kapitel 3 o 4 Att skicka signaler på en länk Tillförlitlig dataöverföring. Att göra. Att sända information mellan datorer

Shannon-Fano-Elias-kodning

Filformat och lagring

Kapitel 3 o 4. Tillförlitlig dataöverföring. (Maria Kihl)

Kommunikationssystem grundkurs, 2G1501 Övningar modul 1 Dataöverföring & fysisk infrastruktur 1 Dataöverföring

DT1130 Spektrala transformer Tentamen

Föreläsning 2. Transmissionslänk. Repetition: Internetprotokollens skikt. Mål

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Elektriska kretsar och fält - några exempel på tillämpningar

Övningar modul 1 - Dataöverföring & fysisk infrastruktur

Synsinnet. Komprimeringsexempel. Förlustkomprimering - Bakgrund. Image Coding. Common Image Formats GIF

Sammanfattning TSBB16

Projekt 1 (P1) Problembeskrivning och uppdragsspecifikation

TSBB16 Datorövning A Samplade signaler Faltning

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Synsinnet. Komprimeringsexempel. Förlustkomprimering - Bakgrund. Common Image Formats. Image Coding GIF. GIF (Graphis Interchange Format)

Lab 4: Digital transmission Redigerad av Niclas Wadströmer. Mål. Uppstart. Genomförande. TSEI67 Telekommunikation

Tentamen i kursen Audio & Videoteknik

Signaler och system, IT3

Adaptiv aritmetisk kodning

Källkodning. Egenskaper hos koder. Några exempel

Elektronik Dataomvandlare

2 Vad händer när man ringer? 2 Vad händer när man ringer?

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Spektrala Transformer

Elektronik. Dataomvandlare

Kompression av ljud och bild

Burrows-Wheelers transform

Teori... SME118 - Mätteknik & Signalbehandling SME118. Johan Carlson 2. Teori... Dagens meny

Rekommendation. Den mänskliga hörseln. Den mänskliga hörseln. Det perifera hörselsystemet: anatomi och fysiologi

CX SERIES CUTTING EDGE DIGITAL AUDIO CXN NETWORK PLAYER

- Superslimmade högtalare tack vare drivenheter med fullständigt frekvensomfång i fingerstorlek

Bruksanvisning. 3.5mm. 2 W RMS Mono eller 2x1W Stereohögtalare out

Tillförlitlig dataöverföring Egenskaper hos en länk Accessmetoder. Jens A Andersson

Lösningar ETS052 Datorkommunikation,

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Elektronik Elektronik 2017

Brus Generator. Instruktionsmanual S-100

S-100. Ljudterapihögtalare med White Noise 10 toner. Bruksanvisning. Art nr

Spektrala Transformer

Grundläggande signalbehandling

AZUR 851 SERIES FLAGSHIP DIGITAL AUDIO AZUR 851N UPSAMPLING NETWORK MUSIC PLAYER

Elektronik Dataomvandlare

Elektronik Elektronik 2019

Källorienterat ljud Del 1

Projekt 2 (P2) Problembeskrivning och uppdragsspecifikation

QosmioEngine För avancerad video

Ljudteknik. Digital representation. Vad är ljud?

ADAPT TRÅDLÖS HD-LJUDADAPTER

Föreskrift om granskning av radiosändare som medför stora risker för störningar

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4

Örat. Johnson, Kap 3. Basic audition

Bruksanvisning DAB One

Vanliga frågor om Smart Pianist

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Streamingbolaget hjälp!"#$%&'()*+,%)$" Sida 1 av 9

Redaktion. Innehåll. Combitech Systems AB. Ledare...3. Utveckling mot effektivare bildöverföring...4. Bild- och videokodning...6

Alla programvaror är Freeware. Audacity mm.


Transkript:

Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck 2. Hörselsinnet Hörnivåkurvor, hörseltröskel, maskeringseffekter, Barkskalan 3. Ljudkodning grundmetoder Grundarkitektur, psykoakustiska modeller, psykoakustisk kvantisering, stereo 4. MPEG-1 (Motion Pictures Expert Group) Lager I, II, III (MP3), Delbandsfilter, MDCT, bittilldelning 5. Ljudkodning andra metoder Dolby Digital, Ogg Vorbis, AAC, Spectrum replication Ljud samplas typiskt med 32, 44.1 eller 48 khz. PCM kodning kräver 12 16 bitar/sampel för god kvalitet => 384 768 kb/s per ljudkanal. Samtliga standardmetoder (prediktiv kodning, VQ, transformkodning, delbandskodning är användbara. Örats egenskaper (psykoakustik) leder till modifieringar av distorsionsmått och bit-tilldelning. State-of-art < 64 kb/s per kanal Originalsekvens: 44.1 khz/16 bitar (706 Kb/s) Prediktiv kodning: 8 punkters prediktor, 4 nivåer (88 Kb/s) Vektorkvantisering: 6-dimensionell, 2 bitar/sampel Transformkodning: 8-punkter, zonkodning, 2 bitar/sampel I ljudkodningssammanhang används ofta en modifierad transform (MDCT). Det är också vanligt att växla mellan stora och små block beroende på signalens beteende. Fönstring i MDCT 1

Människans hörsel är ganska väl studerad och det finns bra modeller för den. Detta kan utnyttjas vid ljudkodning för att placera distorsionen (kvantiseringsbruset) så att det ska märkas så lite som möjligt. Alla moderna ljudkodningsmetoder utnyttjar psykoakustik vid kodningen, vilket ger en signifikant förbättring av den upplevda kvaliteten. (För bildkodning har man inte lyckats utnyttja modeller för synsinnet för mer än marginella förbättringar.) Psykoakustisk effekt: Demo Musik utan distorsion Musik med vitt brus Musik med perceptuellt distribuerat brus 2

3

4

Grundarkitektur - ljudkodning Exempel från MPEG-standarden PCM ljud Delbandsfiltrering + nersampling Bit-allokering, Kvantisering (minnesfri) bitström Psykoakustisk modell Delbandsfiltret ersätts/kompletteras ibland med DCT eller MDCT. Psykoakustiska modeller Psykoakustisk kvantisering Vid ljudkodning kodas signalen typiskt i block av storleksordningen 1000 samples. För att utnyttja psykoakustiken mäter man blockets innehåll av olika frekvenskomponenter (helst i Barkskalan). Man försöker även klassificera de olika banden som toner eller brus. Prototypmaskeringskurvor för de olika banden kombineras med hörseltröskeln till en total SMR-kurva. Bitar delas ut till de olika banden så att SNR (om möjligt) är större än SMR för alla band. Om bitarna inte räcker, delas de ut så att den totala skillnaden mellan SMR och SNR minimeras. Skillnaden mellan SNR och SMR kallas mask to noise ratio, MNR. För varje delband bestäms: MNR = SNR SMR [db] MNR: mask-to-noise ratio SNR: signal-to-noise ratio SMR: signal-to-mask ratio Allokera en bit till den delbandskvantiserare som har lägst MNR. Beräkna nya SNR och MNR. Repetera tills alla bitar fördelats. 5

Exempel Sammansättning av maskeringseffekter och tröskelnivåer ger önskat SNR-värde per delband MPEG-1 delbandsuppdelning Grundfiltrets frekvensgång Egenskaper: Parallell filterbank (ej binärt träd) Övriga filter är translaterade i frekv.planet Approximativt QMF (ej perfekt rekonstruktion) Direkt decimering 32:1 6

Blockschema MPEG-1 Layer III Sammanfattning MPEG-1 Lager 1-3 1. MPEG-1 lager 1: Delbandsuppdelning (32 band) av grupper om 384 samples (ramar). Individuell adaptiv kvantiserare för varje band. 2. MPEG-1 lager 2: tre ramar kombineras för att sänka overhead-informationen. 3. MPEG-1 lager 3 (MP3): Vissa delband transformeras med MDCT för att öka frekvensupplösningen. Variabellängdkodning används. 7

Andra metoder ATRAC (Adaptive Transform Acoustic Coding) Kodningsmetod använd i MiniDisc. Signalen delas in i tre frekvensband (0-5.5125 khz, 5.5125-11.025 khz och 11.025-22.05 khz) med en enkel delbandskodare. Därefter görs en MDCT på varje delband. Två olika blockstorlekar (n = 64 och n = 512). AAC (Advanced Audio Coding) Kodningsmetod i MPEG-2 och MPEG-4 samt itunes. Baseras på MDCT och aritmetisk kodning. Ger ungefär samma kvalitet som MP3 vid halva datatakten. Dolby Digital Alternativ ljudkodare i MEPG-2 och MPEG-4. Proprietär kodare från företaget Dolby (USA). Bygger på MDCT och två olika blockstorlekar. Ogg Vorbis Open source project för att göra en ljudkodare som inte innehåller några patenterade delar. Bygger på MDCT och statisk Huffmankodning. Används exempelvis av Spotify. 8

MPEG-2/4 AAC: Advanced Audio Coder MDCT, n = 2048 eller n = 256. Olikformig kvantisering (kompander). Expert listener quality vid 128 kbit/s. Tillägg i MPEG-4: VQ, Aritmetisk kodning. Halva datatakten jämfört med mp3, framförallt beroende på förbättrad psykoakustisk modell. Mono 16 Stereo 32 Stereo 64 kbits/s Haydn Tracy Chapman Spectral Band Replication (SBR) En metod där man skär bort högpassinnehållet ur ljudsignalen innan kodningen. Vid avkodningen återskapas högfrekvensinnehållet från lågpassinnehållet. Man skickar även med lite extra information i det kodade datat för att hjälpa till vid återskapandet av högpassignalen. Kan användas tillsammans med nästan vilken kodningsmetod som helst. I kombination med mp3 kallas det mp3pro. I kombination med AAC kallas det aacplus. Påstås ge 25-50 procents minskning av datatakten vid samma upplevda kvalitet. aacplus används i DRM (Digital Radio Mondiale) som är digitalradio via kort- och mellanvågsbanden, samt i den nya versionen av DAB. 9