Informationsteori. Repetition Kanalkapaciteten C. Repetition Källkodhastigheten R 2. Repetition Kanalkodhastigheten R 1. Huffmans algoritm: D-när kod

Relevanta dokument
Källkodning. Egenskaper hos koder. Några exempel

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1

TAMS79: Föreläsning 10 Markovkedjor

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Markovprocesser SF1904

Markovprocesser SF1904

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Aritmetisk kodning. F (0) = 0 Exempel: A = {1, 2, 3} k=1. Källkodning fö 5 p.1/12

Markovprocesser SF1904

Markovprocesser SF1904

TSBK04 Datakompression. Övningsuppgifter

TSBK04 Datakompression Övningsuppgifter

Matematisk statistik för D, I, Π och Fysiker

Datakompression. Harald Nautsch ISY Bildkodning, Linköpings universitet.

Kursinnehåll. Datakompression. Föreläsningar, preliminärt program. Examination

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

Detta ger oss att kanalkapaciteten för den ursprungliga kanalen är C = q 1 C 1 + q 2 C C =1 h ( ) 0.30.

Skurlängdskodning. aaaabbbbbbbccbbbbaaaa. Man beskriver alltså sekvensen med ett annat alfabet än det ursprungliga.

Stokastiska processer

FLAC (Free Lossless Audio Coding)

Markovprocesser SF1904

Träd och koder. Anders Björner KTH

Fö relä sning 2, Kö system 2015

Shannon-Fano-Elias-kodning

Markovprocesser SF1904

Markovprocesser SF1904

Tentamen i FMS180/MASC03 Markovprocesser

Stokastiska processer och simulering I 24 maj

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

P =

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1

b) Vad är sannolikheten att personen somnar i lägenheten? (4 p) c) Hur många gånger förväntas personen byta rum? (4 p)

Markovprocesser SF1904

Markovprocesser SF1904

Föreläsning 9, FMSF45 Markovkedjor

** a) Vilka värden ska vara istället för * och **? (1 p) b) Ange för de tre tillstånden vilket som svarar mot 0,1,2 i figuren.

Tentamen i matematisk statistik, TAMS15/TEN (4h)

Föreläsninsanteckningar till föreläsning 3: Entropi

Föreläsning 7. Felrättande koder

Ordbokskodning. Enkel variant av kodning med variabelt antal insymboler och fixlängds kodord. (Jfr tunstallkodning)

Exempel, minnesfri binär källa. Ordbokskodning. Lempel-Zivkodning. Lempel-Zivkodning, forts.

Lab 3 Kodningsmetoder

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL

Kodning med distorsion

Stokastiska processer och simulering I 24 augusti

TAMS14/36 SANNOLIKHETSLÄRA GK Poissonprocessen (komplettering) Torkel Erhardsson 14 maj 2010

Om Markov Chain Monte Carlo

Bayesianska numeriska metoder II

TENTAMEN I SF1904 MARKOVPROCESSER TISDAGEN DEN 29 MAJ 2018 KL

Grafer och grannmatriser

Digital- och datorteknik

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

Markov Chain Monte Carlo, contingency tables and Gröbner bases

DIGITALA TAL OCH BOOLESK ALGEBRA

Matematisk statistik för D, I, Π och Fysiker

Lycka till!

Block 2 Algebra och Diskret Matematik A. Följder, strängar och tal. Referenser. Inledning. 1. Följder

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

SF1624 Algebra och geometri Tentamen med lösningsförslag onsdag, 11 januari 2017

Kontinuitet och gränsvärden

TENTAMEN I SF2937 (f d 5B1537) TILLFÖRLITLIGHETSTEORI TORSDAGEN DEN 14 JANUARI 2010 KL

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1

Övning 1(a) Vad du ska kunna efter denna övning. Problem, nivå A. Redogöra för begreppen diskret och kontinuerlig stokastisk variabel.

Föreläsningsanteckningar i kurs 5B1506 Markovprocesser och köteori. Jan Grandell

Kurslitteratur. Kompression av ljud och bild. Föreläsningar, preliminärt program. Laborationer. Khalid Sayood, Introduction to Data Compression

Material till kursen SF1679, Diskret matematik: Lite om kedjebråk. 0. Inledning

Konvergens och Kontinuitet

x f (x) dx 1/8. Kan likhet gälla i sistnämnda relation. (Torgny Lindvall.) f är en kontinuerlig funktion på 1 x sådan att lim a

2.1 Mikromodul: stokastiska processer

Markovprocesser SF1904

Tentamen LMA 200 Matematisk statistik,

PCP-satsen på kombinatoriskt manér

3 Teori för symmetriska system

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Probabilistisk logik 1

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

Kunna beräkna medelantal kunder för alla köer i ett könät utan återkopplingar. I denna övning kallas ett kösystem som ingår i ett könät oftast nod.

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Kunna definiera laplacetransformen för en kontinuerlig stokastisk variabel. Kunna definiera z-transformen för en diskret stokastisk variabel.

SF1901: SANNOLIKHETSTEORI OCH FLERDIMENSIONELLA STOKASTISKA STATISTIK VARIABLER. Tatjana Pavlenko. 8 september 2017

Algoritmer, datastrukturer och komplexitet

Jörgen Säve-Söderbergh

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 18 AUGUSTI 2017 KL

DEL I 15 poäng totalt inklusive bonus poäng.

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Matrisexponentialfunktionen

Kunna använda Littles sats för enkla räkningar på kösystem.

Övningstentamen i matematisk statistik

Grundläggande matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen LMA 200 Matematisk statistik,

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation

Giriga algoritmer och dynamisk programmering

MVE035. Sammanfattning LV 1. Blom, Max. Engström, Anne. Cvetkovic Destouni, Sofia. Kåreklint, Jakob. Hee, Lilian.

Adaptiv aritmetisk kodning

Tiden i ett tillstånd

Uppsala Universitet Matematiska Institutionen Bo Styf. Sammanfattning av föreläsningarna 11-14, 16/11-28/

Transkript:

Informationsteori Repetition Kanalkapaciteten C Källkodare Kanalkodare X Kanal Mats Cedervall Mottagare vkodare Kanalavkodare Y Kanalkodningssatsen C =supi(x; Y ) p(x) Informationsteori, fl#7 1 Informationsteori, fl#7 2 Repetition Kanalkodhastigheten R 1 Repetition Källkodhastigheten R 2 U = U 1...U w X = X 1...X n S = S 1...S k U = U 1...U w Källkodare Kanalkodare Källkodare Kanalkodare Kanal Kanal Mottagare vkodare Kanalavkodare Mottagare vkodare Kanalavkodare Û Ŝ Pr(U Û) <ɛ, w n = R 1 <C Pr(S Ŝ) <ɛ, w k = R 2 >H(S) Källkodningssatsen Informationsteori, fl#7 3 Informationsteori, fl#7 4 Källkodning, R = E{W }/E{K} Huffmans algoritm: D-när kod U = U 1...U K meddelande Källkodare X = X 1...X W kodord HD1: Skapa L noder. Var och en representerar symbolerna u 1,u 2,...,u L. Varje nod u i tilldelas sannolikheten p(u i ) för i =1, 2,...,L. Beräkna t = R D 1 [L 2] + 2. Huffmankodning: Tunstallkodning: Meddelandelängden K är fix. Kodordslängden W varierar. Målet är att minimerar E{W }. Kodordslängden W är fix. Meddelandelängden K varierar. Målet är att maximera E{K}. HD2: HD3: Förena de t minst sannolika aktiva noderna med en ny nod tillordna denna en sannolikhet som är lika med summan av sannolikheterna för de t just förenade noderna. De t noderna tilldelas olika kodsymboler. Om det finns endast en aktiv nod är vi klara. I annat fall, sätt t = D och gå till HD2. Informationsteori, fl#7 5 Informationsteori, fl#7 6 Tunstallkodning Betrakta en källa vars utsymbol är en stokastisk variabel U med följande sannolikhetsfördelning. u u 1 u 2 u 3 u 4 u 5 u 6 p(u).5.1.15.2.23.27 Konstruera en optimal ternär kod till denna källa. U = U 1...U K meddelande Källkodare X = X 1...X W kodord U i är en stokastisk variabel {u 1,u 2,...,u L }. Den är L- när. Successiva värden väljes oberoende av varandra! K är en stokastisk variabel, dvs. den stokastiska variabeln U:s värden är L-nära vektorer av varierande längd. X i är en stokastisk variabel {, 1,...,D 1}. Den är D-när. Fix kodordslängd (=W ). Informationsteori, fl#7 7 Informationsteori, fl#7 8

Mål Varje kodord representerar ett meddelande. I medel vill vi få in så många källsymboler som möjligt i ett meddelande. Medelantalet D-nära kodsymboler per källsymbol är W E{K}. Denna kvot vill vi ha så liten som möjligt. Vi skall maximera E{K}. För att vi skall kunna känna igen ett meddelande så snart som det är fullständigt får inget meddelande vara prefix till ett annat. Informationsteori, fl#7 9 Antalet meddelanden, som vi kan representera med ett L-närt träd, i vilket vi har en komplett uppsättning grenar, dvs. L stycken för varje nod, är där q är ett ickenegativt heltal. M = L + q(l 1), Vi kallar ett sådant träd för komplett och motsvarande meddelandemängd för en komplett meddelandemängd. Informationsteori, fl#7 1 Följande kompletta träd med L =3kan representera M =5 meddelanden (q =1). En komplett meddelandemängd med M = L + q(l 1) meddelanden kallas en Tunstall-meddelandemängd för en L-när DMS om motsvarande L-nära träd kan bildas genom att vi successivt utvidgar den mest sannolika noden. Informationsteori, fl#7 11 Informationsteori, fl#7 12 Lemma Betrakta en binär minnesfria källan med p() =.6 och p(1) =.4. En komplett meddelandemängd för en L-när DMS är en Tunstallmängd om och endast om varje inre nod i dess träd är minst lika sannolik som varje slutnod. Beskriv en Tunstallmängd med M =5meddelanden? Informationsteori, fl#7 13 Informationsteori, fl#7 14 En komplett meddelandemängd med M meddelanden från en DMS maximerar medelmeddelandelängden, E{K}, om och endast om den är en Tunstallmängd. Tunstalls algoritm: D-när kodning TA1: Bestäm q = TA2: D n L. L 1 Konstruera Tunstallmängden med M = L + q (L 1) element för källan genom att starta med den utvidgade roten och därefter utföra q stycken successiva utvidgningar av den mest sannolika noden. TA3: Tillordna ett distinkt D-närt kodord av längd n till varje meddelande i Tunstallmängden. Informationsteori, fl#7 15 Informationsteori, fl#7 16

Källsymbolerna beror av varandra Betrakta en binär minnesfri källa med p() =.6 och p(1) =.4. Ange en Tunstallmängd om kodens blocklängd skall vara W =3. U 1...U K... meddelande Källkodare X 1...X W... kodord Vad händer om källsymbolerna U i beror av varandra? Betrakta olikheten H(U i U i 1 ) H(U i ). Denna indikerar att ju mer vi känner om källan ju bättre källkodning bör vi kunna utföra. Informationsteori, fl#7 17 Informationsteori, fl#7 18 Shannon antog ett alfabet med 27 symboler, dvs. 26 bokstäver och ett mellanrum. Nollte ordningens approximation av engelska. Symbolerna väljes oberoende av varandra och likafördelade. Första ordningens approximation av engelska. Symbolerna väljes oberoende av varandra men med förekomstsannolikheter enligt vanlig engelsk text (12 % E, 2% W, etc.). XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL Informationsteori, fl#7 19 Informationsteori, fl#7 2 Andra ordningens approximation av engelska. Då en symbol har valts, väljes nästa enligt den sannolikhetsfördelning med vilken de olika symbolerna följer efter just denna. ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE Tredje ordningens approximation av engelska. IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTRURES OF THE REPTAGIN IS REGOACTIONA OF CRE Likheten med vanlig engelska ökar med ökad approximationsgrad. Informationsteori, fl#7 21 Informationsteori, fl#7 22 Första ordningens ordapproximation av engelska. Orden väljes oberoende av varandra och med en sannolikhet som speglar deras förekomst. REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE Informationsteori, fl#7 23 Andra ordningens ordapproximation av engelska. Här är det tagits hänsyn till sannolikheten att ett ord följs av ett annat. THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED Talande maskiner? Informationsteori, fl#7 24

Markovkällor Karakteriseras av en ändlig tillståndsmängd S = {,s 2,...,s r }, en en övergångsmatris Π=[p ij ],i,j =1, 2,...,r, med p ij för alla i, j och r j=1 p ij =1för alla i, funktion f, som avbildar ett tillstånd på en utsignal. Mängden av källans utsignaler kallas källans alfabet. Låt S,S 1,S 2,... vara en följd av stokastiska variabler S i S och låt fördelningen för S vara godtycklig. Egenskapen Pr(S n+1 = s k S = s i,s 1 = s i1,...,s n = s in )= = Pr(S n+1 = s k S n = s in ) kallas Markovegenskapen och betyder att sannolikheten att vi går till ett speciellt tillstånd endast beror på föregående tillstånd. Informationsteori, fl#7 25 Informationsteori, fl#7 26 Egenskapen Pr(S n+1 = s k S n = s i )=p(s i,s k )=p ik visar att den betingade sannolikheten är oberoende av n (tiden) och kallas övergångssannolikheternas stationaritet. En stokastisk följd av tillstånd S,S 1,S 2,... som har dessa båda egenskaper kallas en ändlig, homogen Markovkedja. s 3 1/4 3/4 s 2 S = {,s 2,s 3 } U = {, 1} f( ) = f(s 2 ) = 1 f(s 3 ) = 1 Informationsteori, fl#7 27 Informationsteori, fl#7 28 (forts) Vid start t =är begynnelsefördelningen Pr(S = )=Pr(S = s 2 )=Pr(S = s 3 )= 1 3. Vilken är fördelningen vid tiden t =1? Notation Sannolikheten att kedjan är i tillstånd s j vid tiden t = n betecknar vi w (n) j =Pr(S n = s j ). Om vi låter w (n) beteckna tillståndsfördelningen vid tiden n, dvs. w (n) =(w (n) 1 w(n) 2...w r (n) ), så skriver vi uppdateringen enligt p 11... p 1r w (n) = w (n 1).. = w (n 1) Π. p r1... p rr Informationsteori, fl#7 29 Informationsteori, fl#7 3 Π 2 = Π 4 = 1 2 3 3 1 4 3 4 1 1 2 2 2 33 21 16 36 39 24 27 (forts) 1 2 3 3 1 4 3 4 1 1 2 2 2 33 21 = 16 36 39 24 27 = Π 8 =... = 2 33 21 1684 1947 1779 16 36 39 24 27 188 249 1692 1188 192 1485.3485.3.2794.3491.31.2788.3489.32.2789 er För stora n närmar sig tillståndsfördelningen vid tiden t = n den asymptotiska fördelningen lim n p(n) ij = w j för i, j =1, 2,...,r, där w j är oberoende av i. Talet w j kallas den asymptotiska sannolikheten för tillståndet s j. Om det finns en mängd tal w 1,w 2,...,w r, sådana att de uppfyller ovanstående gränsvärde, så säger vi, att asymptotiska sannolikheter existerar för kedjan. Informationsteori, fl#7 31 Informationsteori, fl#7 32

Om en Markovkedja med övergångsmatris Π har de asymptotiska sannolikheterna w =(w 1 w 2...w r ) så gäller det att a) r j=1 w j =1 (forts) Bestäm de asymptotiska sannolikheterna för Markovkedjan. b) w =(w 1 w 2...w r ) är en stationär fördelning för kedjan, dvs. wπ =w. c) w är den entydiga stationära fördelningen för kedjan, dvs. om v =(v 1 v 2...v r ) med alla v i och r i=1 v i =1, så implicerar vπ =v att v = w. Informationsteori, fl#7 33 Informationsteori, fl#7 34 (Nytt) En Markovsk informationskälla är en följd av stokastiska variabler U = f(s ),U 1 = f(s 1 ),..., sådana att 1 s 3 s 2 1) Följden S,S 1,... är en ändlig Markovkedja. 2) Varje U i antar värden ur en ändlig mängd, källans alfabet. 3) Följden är stationär. För alla icke negativa heltal i 1,...,i k,h gäller Pr(U i1 = u j1,...,u ik = u jk )=Pr(U i1 +h = u j1,...,u ik +h = u jk ). 4) S väljes enligt en stationär fördelning, dvs. Pr(S = s j )=w j. Informationsteori, fl#7 35 Informationsteori, fl#7 36 För en informationskälla U,U 1,... definieras entropin hos källan som lim H(U n U U 1...U n 1 )=H (U). n Om U,U 1,...,U n är en följd av oberoende och likafördelade stokastiska variabler, så gäller att Om U,U 1,... är en informationskälla, så gäller H(U U 1...U n ) H (U) = lim. n n +1 H (U) =H(U i ), i. Informationsteori, fl#7 37 Informationsteori, fl#7 38, en unifilär källa Betrakta en Markovsk informationskälla med tillståndsmängd S = {,s 2,...,s r },alfabetu, funktion f : S U,och stationär fördelning w =(w 1 w 2...w r ). Låt för varje tillstånd s k, följden s k1,s k2,...,s knk vara de tillstånd, som kan nås i ett steg från s k, dvs. tillstånd s j sådana att p kj >. 1/4 S = {,s 2,s 3 } U = {, 1} f( ) = f(s 2 ) = 1 f(s 3 ) = 1 n säges vara unifilär, om symbolerna f(s k1 ),...,f(s knk ) är distinkta för varje tillstånd s k. s 3 3/4 s 2 Informationsteori, fl#7 39 Informationsteori, fl#7 4

Låt s k1,s k2,...,s knk beteckna de tillstånd, som är direkt uppnåeliga från s k,k=1, 2,...,r. Entropin hos tillståndet s k definieras som n k H(S k )= p kki log p kki. i=1 Entropin hos en unifilär Markovkälla ges av r H (U) = w k H(S k ). k=1 Informationsteori, fl#7 41 Informationsteori, fl#7 42, beräkna H 2 (U) och H (U) 1/4 S = {,s 2,s 3 } U = {, 1} f( ) = f(s 2 ) = 1 f(s 3 ) = 1 s 3 3/4 s 2 Informationsteori, fl#7 43