Föreläsning 1: Bild- och ljudkodning 1. Kursöversikt 2. Introduktion till bild- och ljudkodning - syfte - historik - antal bitar per bildpunkter/sampel 3. Två principiella klasser : distorsionsfri och distorderande kodning 4. Modeller för bild- och ljudsignaler samt därav inspirerade kodningsmetoder
Kursöversikt - föreläsningar F1: Introduktion till bild- och ljudkodning F2: Informationsteoretiska begrepp F3: Källkodningsteori, Huffmankodning F4: Aritmetisk kodning, Lempel-Ziv-kodning F5: Analoga signaler, Skalär kvantisering F6: Vektorkvantisering F7: Prediktiv kodning F8: Transformkodning F9: Delband/Wavelet-kodning F10: Audiokodning F11: Videokodning F12: Talkodning, Modellbaserad videokodning, Video/audio över nätverk
Kursöversikt - övrigt Kurslitteratur: 12 föreläsningar 8 lektioner 2 datorlektioner 2 laborationer (varav en är schemalagd) 1. K. Sayood, Introduction to Data Compression 2. Diskreta Markovprocesser (kurshemsidan) 3. Övningshäfte, formelsamling (kurshemsidan) 4. Kurshemsida: www.icg.isy.liu.se/courses/tsbk02/ - labbokning, labbanvisningar, extramaterial
Bild- och ljudkodning Syfte: effektiv (digital) representation av bilder, video, tal och musik. Bivillkor: - god kvalitet - tålighet mot kanalfel - realtidsprestanda - kostnadseffektiv
Bild- och ljudkodning Telekommunikation Bildanalys Spektralanalys Perception Bild/ Ljudkodning Psykoakustik Datorgrafik Talsyntes Digital signalbehandling
Tillämpningar Stillbilder Fax Teleradiologi Webb Digitalkameror Bilddatabaser Video Bildtelefoni Videokonferens Multimedia Videokameror Digital-TV DVD, Blu-ray Ljud CD Mobiltelefoner MP3-spelare DAB Film/video-ljud
Telefoni g Ericsson 1905 Smartphone 2014
Television Baird 1930 OLED 2014
Den elektroniska bilden analogt format Bilden avsöks linje för linje och ger upphov till en analog signal. I Bairds mekaniska TV-system användes 30 linjer och videobandbredd ca 10 khz.
Den elektroniska bilden digitalt format Bildpunkt (pixel) En bildpunkt representeras med en eller flera databitar. Representationen kallas Pulskods-modulation (PCM).
Bilder: hur många bildpunkter? Baird 30*50 (ca) TV (PAL) 720*576 HDTV 1920*1080 QFHD 3840*2160 Digitalkamera 2-40Milj.
Hur många bitar per bildpunkt? Bitar/bildpunkt Bildtyper Exempel 1 4 8 12-16 8*3=24 8*4=32 binära enkel datorgrafik gråskalebilder högkontrast Färgbilder (RGB) RGB med alpha fax tidiga spel telefoto röntgen digital foto datorgrafik
Ljud: antal bitar per sampel och per sekund (PCM-kodning) CD-kvalitet 16 bitar per sampel 44100 sampel per sekund Två kanaler =>1.4 Mbit/s Betraktas ofta som referens ( okomprimerat ljud ) Modern kodningsmetoder: 64 kbit/s med god kvalitet Digital telefoni 8 bitar per sampel 8000 sampel per sekund => 64 kbit/s Moderna kodningsmetoder: 4 kbit/s med god kvalitet
Video: antal bitar per sekund (PCM-kodning) TV-kvalitet 3*8 bitar (RGB) per bildpunkt 720*576 bildpunkter per bild (PAL) 25 bilder per sekund => 250Mbit/s HDTV-kvalitet 3*8 bitar (RGB) per bildpunkt 1920*1080 bildpunkter per bild (1080i) 25 bilder per sekund => 1.24Gbit/s
Video: kodningsmetoder Model-based Video coding 3G Mobile videophone Video CD Digital TV, DVD HDTV 8 16 64 384 1.5 5 20 kbit/s Mbit/s Very low bitrate Low bitrate Medium bitrate High bitrate MPEG-4 H.264 H.263 H.261 MPEG-1 MPEG-2
Distorsionsfri ( lossless ) kodning (Datakompression) Representera en digital signal med färre bitar än originalet på så sätt att signalen kan rekonstrueras exakt. Den undre begränsningen ges av entropin för data (baseras på Informationsteori). Exempel: ZIP, compress, GIF, PNG, FLAC
Distorderande ( lossy ) kodning Representera en digital eller analog signal med så få bitar som möjligt så att signalen kan rekonstrueras med godtagbar kvalitet. Exempel: GSM, JPEG, MPEG-2, H.264, MPEG-1 layer 3 (mp3), AAC, WMA,...
Typisk kodarstruktur Analog signal Sampling kvantisering Digital Signal (PCM) Distorderande kodning Distorderad digital signal Distorsionsfri Kodning
Kodning av bild och ljud bygger på modeller S(t) t Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder Signalmodeller determ. modeller statistiska modeller Signalteoretiska kodningsmetoder Syn/hörsel-modeller spatio/temporal modeller maskeringsegenskaper Perceptionsbaserade kodningsmetoder
Statistiska signalmodeller Minnesfria signaler Varje signalvärde är oberoende av övriga signalvärden. t Signaler med minne Signalvärden är beroende av ett eller flera övriga signalvärden. t
Exempel på statistisk modell för signaler med minne Markov-modellen P 22 P 12 s2 P 11 s 1 P21 P 31 P 13 P 23 P 32 s 3 P 33
Autoregressiv modell - en amplitudkontinuerlig Markovmodell x k x k = S a i x k-i + n k n k : minnesfri process Lämpar sig väl för att modellera ljudsignaler
Korrelationsmodell För bilder kan 2-dimensionella korrelationsfunktioner vara användbara: x ij E{ X ij X } kl = ke - a( i - k )2 + b( j -l ) 2 x kl eller E{ X ij X } - a i - k -b j -l kl = ke
Exempel på kodning av minnesfri källa Gråskalebild med nivåer mellan 0-3. Statistisk redundans: de olika nivåerna förekommer olika ofta (se figur). Kodningsmetod: Variabel-längdkodning (VLC) 50 % 0 1 2 3 nivå PCM 0-00 1-01 2-10 3-11 VLC 0-0 3-10 1-110 2-111 2 bitar/bildpunkt 1.75 bitar/bildpunkt i genomsnitt!
Exempel på kodning av minneskälla Bildtyp: fax. Statistisk redundans: närliggande bildpunkter har ofta samma värde. Kodningsmetod: koda skurlängderna. Skurkod: 15,15,15,4,5,6,4,6,5,3, Antag 4 bitar/skur: 45*4 = 180 bitar jfr. okodat: 15*15 = 225 bitar
Prediktiv kodning (DPCM) (för AR-processer) t Prediktion (linjär/rörelsekompenserad) VLC Princip: gissa (prediktera) hur bilden ser ut, beräkna skillnaden (felbilden), variabel-längdkoda felbilden.
Transformkodning (för 2D-korrelerade källor) x ij x kl
Modellbaserade kodningsmetoder - används vid kodning av talsignaler - och för kodning av ansiktsbilder
Perceptionsbaserade kodningsmetoder (är mer användbara för ljudkodning än för bildkodning) db 40 30 20 10 0 Dämpningskurva 2 4 6 8 10 12 khz
Fraktalkodning Grundidé: sök självliknande delar i bilden... sådan symmetri ger enkel matematisk beskrivning...
Fraktalkodning, forts. Varje bild kan göras självlik...