Föreläsning 10: Ljudkodning ( Audio Coding )

Relevanta dokument
4/27/12. Fönstring i MDCT. Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå(loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå (loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Föreläsning 7: Bild- och videokodning

I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Föreläsning 1: Bild- och ljudkodning

Digital signalbehandling Digitalt Ljud

SMS047 Mediakodning. Introduktion. Frank Sjöberg. Introduktion. Introduktion

Grundläggande ljud- och musikteori

Analys/syntes-kodning

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Digital Signalbehandling i Audio/Video

Kurslitteratur. Kompression av ljud och bild. Föreläsningar, preliminärt program. Laborationer. Khalid Sayood, Introduction to Data Compression

Spektrala Transformer

Transformkodning Idé: 1. Tag datasekvensen och dela in den i block av storlek N (eller N N om signalen är tvνadimensionell). Transformera dessa block

Föreläsning 12. Modellbaserad ljudkodning. Modellbaserad bildkodning. Utblickar Mediakommunikation över Internet Multi-view video

Spektrala Transformer

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Att sända information mellan datorer. Information och binärdata

Kodning med distorsion

EXAMENSARBETE. Skillnader mellan elgitarrtoner vid olika tonhöjd av LAME MP3-kodning. Henrik Alakangas. Filosofie kandidatexamen Ljudteknik

Digital kommunikation. Maria Kihl

Kapitel 2 o 3. Att skicka signaler på en länk. (Maria Kihl)

Digital kommunikation. Maria Kihl

Skurlängdskodning. aaaabbbbbbbccbbbbaaaa. Man beskriver alltså sekvensen med ett annat alfabet än det ursprungliga.

Videosignalen består av en sekvens av bilder, typiskt 24, 25 eller 30 bilder i sekunden.

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

Prislista Rotel

Kihl & Andersson: , 3.1-2, (ej CDM) Stallings: 3.1-4, 5.1, 5.2, 5.3, 8.1, 8.2

TSBK35 Kompression av ljud och bild

Aritmetisk kodning. F (0) = 0 Exempel: A = {1, 2, 3} k=1. Källkodning fö 5 p.1/12

Ämnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle

Kodning av ansiktstextur med oberoende komponenter

INT 3 F4. Bildkomprimering. Run Length Encoding. Medieteknik Del2. Komprimering, ljud och rörliga bilder. Olika algoritmer för bildkomprimering:

FLAC (Free Lossless Audio Coding)

Rekommendation. Den mänskliga hörseln. Den mänskliga hörseln. Det perifera hörselsystemet: anatomi och fysiologi

DT1130 Spektrala transformer Tentamen

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

TSBB16 Datorövning A Samplade signaler Faltning

Föreläsning 2. Transmissionslänk. Repetition: Internetprotokollens skikt. Mål

Kapitel 3 o 4 Att skicka signaler på en länk Tillförlitlig dataöverföring. Att göra. Att sända information mellan datorer

Kommunikationssystem grundkurs, 2G1501 Övningar modul 1 Dataöverföring & fysisk infrastruktur 1 Dataöverföring

Shannon-Fano-Elias-kodning

Kapitel 3 o 4. Tillförlitlig dataöverföring. (Maria Kihl)

Projekt 1 (P1) Problembeskrivning och uppdragsspecifikation

Elektriska kretsar och fält - några exempel på tillämpningar

Övningar modul 1 - Dataöverföring & fysisk infrastruktur

Örat. Johnson, Kap 3. Basic audition

Filformat och lagring

Synsinnet. Komprimeringsexempel. Förlustkomprimering - Bakgrund. Image Coding. Common Image Formats GIF

Tentamen i kursen Audio & Videoteknik

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Synsinnet. Komprimeringsexempel. Förlustkomprimering - Bakgrund. Common Image Formats. Image Coding GIF. GIF (Graphis Interchange Format)

Grundläggande signalbehandling

Adaptiv aritmetisk kodning

Källkodning. Egenskaper hos koder. Några exempel

Brus Generator. Instruktionsmanual S-100

Sammanfattning TSBB16

2 Vad händer när man ringer? 2 Vad händer när man ringer?

Elektronik Elektronik 2017

Spektrala Transformer

Burrows-Wheelers transform

Kompression av ljud och bild

- Superslimmade högtalare tack vare drivenheter med fullständigt frekvensomfång i fingerstorlek

Elektronik Elektronik 2019

Lab 4: Digital transmission Redigerad av Niclas Wadströmer. Mål. Uppstart. Genomförande. TSEI67 Telekommunikation

Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4

CX SERIES CUTTING EDGE DIGITAL AUDIO CXN NETWORK PLAYER

Teori... SME118 - Mätteknik & Signalbehandling SME118. Johan Carlson 2. Teori... Dagens meny

Tillförlitlig dataöverföring Egenskaper hos en länk Accessmetoder. Jens A Andersson

Signaler och system, IT3

Elektronik Dataomvandlare

5:8 CD och DVD. CD spelaren Det krävs ett litet tekniskt underverk för att spela upp en cd skiva. Vi går igenom grundkomponenterna.

Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19

S-100. Ljudterapihögtalare med White Noise 10 toner. Bruksanvisning. Art nr

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

A/D D/A omvandling. Lars Wallman. Lunds Universitet / LTH / Institutionen för Mätteknik och Industriell Elektroteknik

App for measurements

Spektrala Transformer

Elektronik. Dataomvandlare

Hörselorganens fysiologi. Rekommendation. Introduktion. Hertz vs Bark

Alla programvaror är Freeware. Audacity mm.

AZUR 851 SERIES FLAGSHIP DIGITAL AUDIO AZUR 851N UPSAMPLING NETWORK MUSIC PLAYER

ADAPT TRÅDLÖS HD-LJUDADAPTER

Källorienterat ljud Del 1

Ljudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:

Ljudteknik. Digital representation. Vad är ljud?

Projekt 2 (P2) Problembeskrivning och uppdragsspecifikation

Bruksanvisning. 3.5mm. 2 W RMS Mono eller 2x1W Stereohögtalare out

Lösningar ETS052 Datorkommunikation,

Spektrala Transformer

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Transkript:

Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck 2. Hörselsinnet Hörnivåkurvor, hörseltröskel, maskeringseffekter, Barkskalan 1. Ljudkodning grundmetoder Grundarkitektur, psykoakustiska modeller, psykoakustisk kvantisering, stereo 2. MPEG-1 (Motion Pictures Expert Group) Lager I, II, III (MP3), Delbandsfilter, MDCT, bittilldelning 1. Ljudkodning andra metoder Dolby Digital, Ogg Vorbis, AAC, Spectrum replication

Ljudkodning Hörbart ljud upptar frekvensområdet 20 Hz 20 khz Ljud samplas typiskt med 32, 44.1 eller 48 khz. PCM kodning kräver 12 16 bitar/sampel för god kvalitet => 384 768 kb/s per ljudkanal. Samtliga standardmetoder (prediktiv kodning, VQ, transformkodning, delbandskodning är användbara. Örats egenskaper (psykoakustik) leder till modifieringar av distorsionsmått och bit-tilldelning.

Exempel (utan psykoakustik) Originalsekvens: 44.1 khz/16 bitar (706 Kb/s) Prediktiv kodning: 8 punkters prediktor, 4 nivåer (88 Kb/s) Vektorkvantisering: 6-dimensionell, 2 bitar/sampel Transformkodning: 8-punkter, zonkodning, 2 bitar/sampel I ljudkodningssammanhang används ofta en modifierad transform (MDCT). Det är också vanligt att växla mellan stora och små block beroende på signalens beteende.

Fönstring i MDCT

Psykoakustik Människans hörsel är ganska väl studerad och det finns bra modeller för den. Detta kan utnyttjas vid ljudkodning för att placera distorsionen (kvantiseringsbruset) så att det ska märkas så lite som möjligt. Alla moderna ljudkodningsmetoder utnyttjar psykoakustik vid kodningen, vilket ger en signifikant förbättring av den upplevda kvaliteten. (För bildkodning har man inte lyckats utnyttja modeller för synsinnet för mer än marginella förbättringar.)

Psykoakustisk effekt: Demo Musik utan distorsion Musik med vitt brus Musik med perceptuellt distribuerat brus

Grundarkitektur - ljudkodning PCM ljud Delbandsfiltrering + nersampling Bit-allokering, Kvantisering (minnesfri) bitström Psykoakustisk modell Delbandsfiltret ersätts/kompletteras ibland med DCT eller MDCT.

Psykoakustiska modeller Vid ljudkodning kodas signalen typiskt i block av storleksordningen 1000 samples. För att utnyttja psykoakustiken mäter man blockets innehåll av olika frekvenskomponenter (helst i Barkskalan). Man försöker även klassificera de olika banden som toner eller brus. Prototypmaskeringskurvor för de olika banden kombineras med hörseltröskeln till en total SMR-kurva. Bitar delas ut till de olika banden så att SNR (om möjligt) är större än SMR för alla band. Om bitarna inte räcker, delas de ut så att den totala skillnaden mellan SMR och SNR minimeras. Skillnaden mellan SNR och SMR kallas mask to noise ratio, MNR.

Psykoakustisk kvantisering För varje delband bestäms: MNR = SNR SMR [db] MNR: mask-to-noise ratio SNR: signal-to-noise ratio SMR: signal-to-mask ratio Allokera en bit till den delbandskvantiserare som har lägst MNR. Beräkna nya SNR och MNR. Repetera tills alla bitar fördelats.

Exempel Sammansättning av maskeringseffekter och tröskelnivåer ger önskat SNR-värde per delband

MPEG-1 delbandsuppdelning

Grundfiltrets frekvensgång Egenskaper: Parallell filterbank (ej binärt träd) Övriga filter är translaterade i frekv.planet Approximativt QMF (ej perfekt rekonstruktion) Direkt decimering 32:1

Blockschema MPEG-1 Layer III

Sammanfattning MPEG-1 Lager 1-3 1. MPEG-1 lager 1: Delbandsuppdelning (32 band) av grupper om 384 samples (ramar). Individuell adaptiv kvantiserare för varje band. 2. MPEG-1 lager 2: tre ramar kombineras för att sänka overhead-informationen. 3. MPEG-1 lager 3 (MP3): Vissa delband transformeras med MDCT för att öka frekvensupplösningen. Variabellängdkodning används.

Andra metoder ATRAC (Adaptive Transform Acoustic Coding) Kodningsmetod använd i MiniDisc. Signalen delas in i tre frekvensband (0-5.5125 khz, 5.5125-11.025 khz och 11.025-22.05 khz) med en enkel delbandskodare. Därefter görs en MDCT på varje delband. Två olika blockstorlekar (n = 64 och n = 512). AAC (Advanced Audio Coding) Kodningsmetod i MPEG-2 och MPEG-4 samt itunes. Baseras på MDCT och aritmetisk kodning. Ger ungefär samma kvalitet som MP3 vid halva datatakten. Dolby Digital Alternativ ljudkodare i MEPG-2 och MPEG-4. Proprietär kodare från företaget Dolby (USA). Bygger på MDCT och två olika blockstorlekar. Ogg Vorbis Open source project för att göra en ljudkodare som inte innehåller några patenterade delar. Bygger på MDCT och statisk Huffmankodning. Används exempelvis av Spotify.

MPEG-2/4 AAC: Advanced Audio Coder MDCT, n = 2048 eller n = 256. Olikformig kvantisering (kompander). Expert listener quality vid 128 kbit/s. Tillägg i MPEG-4: VQ, Aritmetisk kodning. Halva datatakten jämfört med mp3, framförallt beroende på förbättrad psykoakustisk modell. Mono 16 Stereo 32 Stereo 64 kbits/s Haydn Tracy Chapman

Spectral Band Replication (SBR) En metod där man skär bort högpassinnehållet ur ljudsignalen innan kodningen. Vid avkodningen återskapas högfrekvensinnehållet från lågpassinnehållet. Man skickar även med lite extra information i det kodade datat för att hjälpa till vid återskapandet av högpassignalen. Kan användas tillsammans med nästan vilken kodningsmetod som helst. I kombination med mp3 kallas det mp3pro. I kombination med AAC kallas det aacplus. Påstås ge 25-50 procents minskning av datatakten vid samma upplevda kvalitet. aacplus används i DRM (Digital Radio Mondiale) som är digitalradio via kort- och mellanvågsbanden, samt i den nya versionen av DAB.