Markovkedjor. Patrik Zetterberg. 8 januari 2013

Relevanta dokument
Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

TAMS79: Föreläsning 10 Markovkedjor

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Markovprocesser SF1904

Markovprocesser SF1904

Markovprocesser SF1904

Markovprocesser SF1904

Markovprocesser SF1904

Markovprocesser SF1904

Stokastiska processer

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1

Tentamen i FMS180/MASC03 Markovprocesser

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

Markovprocesser SF1904

Grafer och grannmatriser

** a) Vilka värden ska vara istället för * och **? (1 p) b) Ange för de tre tillstånden vilket som svarar mot 0,1,2 i figuren.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 9, FMSF45 Markovkedjor

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Markovprocesser SF1904

Markovprocesser SF1904

Stokastiska processer och simulering I 24 augusti

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL

Stokastiska processer och simulering I 24 maj

40 5! = 1, ! = 1, Om man drar utan återläggning så kan sannolikheten beräknas som 8 19

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

P =

Probabilistisk logik 1

Tentamen i matematisk statistik, TAMS15/TEN (4h)

Bayesianska numeriska metoder II

Monte Carlo-metoder. Bild från Monte Carlo

b) Vad är sannolikheten att personen somnar i lägenheten? (4 p) c) Hur många gånger förväntas personen byta rum? (4 p)

Tentamen LMA 200 Matematisk statistik,

ÖVNINGSUPPGIFTER KAPITEL 9

FÖRELÄSNING 3:

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 18 AUGUSTI 2017 KL

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

TENTAMEN I SF1904 MARKOVPROCESSER TISDAGEN DEN 29 MAJ 2018 KL

TMS136. Föreläsning 4

bli bekant med summor av stokastiska variabler.

Informationsteori. Repetition Kanalkapaciteten C. Repetition Källkodhastigheten R 2. Repetition Kanalkodhastigheten R 1. Huffmans algoritm: D-när kod

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Övning 1(a) Vad du ska kunna efter denna övning. Problem, nivå A. Redogöra för begreppen diskret och kontinuerlig stokastisk variabel.

MVE051/MSG Föreläsning 7

Finansiell statistik FÖRELÄSNING 11

Lycka till!

Introduktion till Markovkedjor. Mattias Arvidsson

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

4 Diskret stokastisk variabel

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

1 Förberedelser. 2 Att starta MATLAB, användning av befintliga m-filer. 3 Geometriskt fördelad avkomma

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Finansiell statistik, vt-05. Slumpvariabler, stokastiska variabler. Stokastiska variabler. F4 Diskreta variabler

TENTAMEN I SF2937 (f d 5B1537) TILLFÖRLITLIGHETSTEORI TORSDAGEN DEN 14 JANUARI 2010 KL

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Kunna definiera laplacetransformen för en kontinuerlig stokastisk variabel. Kunna definiera z-transformen för en diskret stokastisk variabel.

Avd. Matematisk statistik

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Kap 3: Diskreta fördelningar

Stokastiska signaler. Mediesignaler

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

modell Finansiell statistik, vt-05 Modeller F5 Diskreta variabler beskriva/analysera data Kursens mål verktyg strukturera omvärlden formellt

1 Föreläsning I, Mängdlära och elementär sannolikhetsteori,

Lektionsanteckningar 11-12: Normalfördelningen

e x/1000 för x 0 0 annars

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Slumpvariabler och sannolikhetsfördelningar

Introduktion till statistik för statsvetare

Probabilistisk logik 2

Om Markov Chain Monte Carlo

Härledning av Black-Littermans formel mha allmänna linjära modellen

Övning 1. Vad du ska kunna efter denna övning. Problem, nivå A

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Fö relä sning 2, Kö system 2015

Kap 2. Sannolikhetsteorins grunder

Matematisk statistik 9 hp, HT-16 Föreläsning 16: Markovkedjor

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Avd. Matematisk statistik

Föreläsning G70 Statistik A

Statistik 1 för biologer, logopeder och psykologer

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

F9 SAMPLINGFÖRDELNINGAR (NCT

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Matematisk statistik för B, K, N, BME och Kemister

Övningstentamen i matematisk statistik

Transkript:

Markovkedjor Patrik Zetterberg 8 januari 2013 1 / 15

Markovkedjor En markovkedja är en stokastisk process där både processen och tiden antas diskreta. Variabeln som undersöks kan både vara numerisk (diskreta) eller kategorisk Vi använder markovkedjor för att analysera hur en variabels utfall ändras mellan två efterföljande tidsperioder. Ett huvudsakligt syfte är att skatta sannolikheter för att variabler byter värde mellan två tidsperioder. Vad är t.ex. sannolikheten att en aktie, som ökade i värde under gårdagen, även ökar i värde idag? 2 / 15

Defintion av markovkedjor Låt {X (t), t = 0, 1,...} vara en följd av stokastiska variabler med utfall x 0, x 1,.... Om vi har för alla n 2 att P(X (n) = x n X (0) = x 0, X (1) = x 1,..., X (n 1) = x n 1 ) = P(X (n) = x n X (n 1) = x n 1 ) är X (t) en markovkedja. Detta villkor kallas för markovvillkortet. 3 / 15

Defintion av markovkedjor Vad innebär markovvillkoret? Om man känner processens värde x n 1 och vill uttala sig om nästa tidperiods värde, x n, så har man ingen glädje av att dessutom känna till alla tidigare tidperioders processvärden x 0, x 1,..., x n 2. Markovprocessen har därför inget minne. Jämför t.ex. med en slumpvandring där vi har ett minne ifrån den första observationen på tidsserien. 4 / 15

Grundläggande begrepp Utfallen x 0, x 1,... för en markovkedja kallas tillstånd. De möjliga tillstånd som finns vid varje tidsperiod betecknas E 1, E 2,... där E i betecknar det i:te tillståndet för X (t). Sannolikheten att processen vid t = n är i tillstånd E i skrivs: och kallas absoluta sannolikheter. p (n) i = P(X (n) = E i ) Sannolikheten att att processen vid t = n antar något av alla möjliga tillstånd är 1: p (n) i = 1 (1) alla i 5 / 15

Markovkedjor - Ett exempel Vi ska sätta begreppen i ett verkligt sammanhang. Antag att vädret en viss dag klassificeras under en av dessa tre kategorier: Vackert väder (V). Mulet väder (M). Regnigt väder (R). Vi vill veta de betingade sannolikheter som visar hur vädret växlar mellan två dagar, dvs. övergångssannolikheterna. Eftersom vi har 3 utfall idag (tidpunkt t) och tre utfall imorgon (t + 1), har vi totalt 3 2 = 9 övergångssannolikheter. 6 / 15

Exempel Vackert idag vackert imorgon sannolikheten 0.6 Vackert idag mulet imorgon sannolikheten 0.3 Vackert idag regn imorgon sannolikheten 0.1 Mulet idag vackert imorgon sannolikheten 0.4 Mulet idag mulet imorgon sannolikheten 0.3 Mulet idag regn imorgon sannolikheten 0.3 Regn idag vackert imorgon sannolikheten 0.3 Regn idag mulet imorgon sannolikheten 0.4 Regn idag regn imorgon sannolikheten 0.3 Om vädret endast bestäms av hur det var föregående dag, kan vädret modelleras med en en Markovkedja.

Exempel Vi sammanställer de 9 övergångssannolikheterna för väderväxlingarna i övergångsmatrisen P: 0.6 0.3 0.1 P = 0.4 0.3 0.3 0.3 0.4 0.3 I matrisen har vi att p (1) 11 = 0.6 osv. för övriga sannolikheter. Summan över kolumnerna för varje rad är alltid 1. Vi kommer alltid att gå ifrån ett tillstånd till ett annat mellan två tidsperioder. 7 / 15

Övergångssannolikheter Sannolikheten att processen går från E i till E j i ett steg skrivs Matrisen p ij = P (X (n) = E j X (n 1) = E i ). P = p 11 p 12 p 13 p 21 p 22 p 23 p 31 p 32 p 33......, (1) kallas övergångsmatrisen (den kan vara oändligtdimensionell). Sannolikheten att processen går från E i till E j i r steg skrivs p (r) ij = P (E i E j i r steg), r = 1, 2,... och kallas övergångssannolikheter av r:te ordningen.

Övergångssannolikheter Övergångssannolikhen p (2) ij är sannolikheten att gå mellan tillstånden E i och E j i två steg. Detta implicerar att vi måste gå via ett tredje tillstånd på, E v på vägen fram : E i E v E j Det finns många möjliga övergångar för denna kedja. Exempel på vägar om vi har tre tillstånd E 1, E 2 och E 3 : E 1 E 2 E 3 E 1 E 1 E 1 osv. Har vi tre tillstånd, ger detta 3 3 = 27 möjliga övergångar i två steg. 8 / 15

Övergångsmatrisen av r:te ordningen Generellt fås övergångsmatrisen av r:te ordningen som r:te potensen av första ordningens övergångsmatris P. Vi har alltså att: P (r) = P r På detta sätt får vi t.ex. andra ordningens övergångsmatris genom matrismultiplikationen: P (2) = P 2 = P P 9 / 15

Markovkedjans fördelning Vi antar att processen vid t=0 startar i E i med en given sannolikhet p (0) i. Vi har då startfördelningen eller startvektorn: ( ) p (0) = p (0) 1, p(0) 2,... Fördelningen av sannolikheter vid tidpunkt n kan på samma sätt skrivas: ( ) p (n) = p (n) 1, p(n) 2,... Fördelningen för en markovkedja vid t = n kan beräknas som: p (n) = p (0) P n = p (n 1) P Oavsett tidpunkt för fördelningen gäller att alla i p i = 1 10 / 15

Asymptotisk fördelning Om det gäller att p (n) = då n och där π i 1 π i = 1 alla i π är oberoende av p (0) ( p (n) 1, p(n) 2,... ) π = ( ) π (n) 1, π(n) 2,... sägs markovkedjan ha en asymptotisk fördelning. Detta innebär att p (n), oavsett vilka värden som fördelningen har vid en viss tidpunkt, kommer den att gå mot värdena i π då n ökar. 11 / 15

Exempel på en asymptotisk fördelning Vi ska se hur två olika startfördelningar kan generera samma asymptotiska fördelning då n ökar, givet att övergångarna modelleras med samma övergångsmatris. Vi studerar en kategorisk variabel med tre tillstånd E 1, E 2 och E 3. Startfördelningarna och övergångsmatrisen är: p (0) start1 = (1/3, 1/3, 1/3) p (0) start2 = (0.7, 0.2, 0.1) P = 0.7 0.3 0.0 0.1 0.6 0.3 0.1 0.1 0.8 Vi använder R för att beräkna fördelningarnas värden vid olika övergångar n. 12 / 18

Exempel på en asymptotisk fördelning De två sannolikhetsfördelningarna p (1) efter n = 1 övergång är: E1 E2 E3 0.30 0.33 0.37 E1 E2 E3 0.52 0.34 0.14 Den asymptotiska fördelningen approximeras genom att öka n. Efter n = 50 övergångar är fördelningarna, p (50) : E1 E2 E3 0.25 0.30 0.45 E1 E2 E3 0.25 0.30 0.45 Vi kan se att båda fördelningarna har konvergerat till samma värden. Detta är värdena i den asymptotiska fördelningen! 13 / 18

Exempel på en asymptotisk fördelning Till slut undersöker vi de två sannolikhetsfördelningarnas rörelser i två diagram med antalet övergångar på x-axeln. Ex 1: asymptotisk fördelning för p(n) Ex 2: asymptotisk fördelning för p(n) Sannolikheter 0.0 0.2 0.4 0.6 0.8 1.0 Sannolikheter 0.0 0.2 0.4 0.6 0.8 1.0 2 4 6 8 10 12 14 Antalet övergångar 2 4 6 8 10 12 14 Antalet övergångar Man kan tydligt se att fördelningarna redan vid n = 15 övergångar konvergerar till samma asymptotiska sannolikhetsfördelning π = (0.25, 0.30, 0.45) 14 / 18

n 11 n 00 + n 01 + n 10 + n 11 = n Att skatta övergångssannolikheter Antag att vi har observerat följande växlingar i vädret n + 1 = 40 dagar 0 0 }{{} 00 0 }{{} 0 1 1 1 0 0 1 1 0 1 0 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 1 1 1 0 0 0 0 0, 01 där 1 betyder regn och 0 betyder torrt väder. Fyra typer av förändringar i data 00 torrt väder följdes av torrt väder Vi har n = 39 övergångar i data (kolla!). n 00 antal övergångar från 0 till 0 n 01 antal övergångar från 0 till 1 n 10

Att skatta övergångssannolikheter Baserat på detta data för väderväxlingar, kan vi skatta övergångsmatrisen som: ˆP = n 00 n 00 +n 01 n 01 n 00 +n 01 n 10 n 10 +n 11 n 11 n 10 +n 11 Vi kan se att summan för varje rad, summerad över kolumnerna, är lika med 1. 15 / 18

Att skatta övergångssannolikheter Nu är n 00 = 16 n 01 = 6 n 10 = 6 n 11 = 11 Då skattar vi övergångsmatrisen ˆP = n 00 n 00 +n 01 n 01 n 00 +n 01 n 10 n 10 +n 11 n 11 n 10 +n 11 n 00 + n 01 = 22 n 10 + n 11 = 17 = ( 16/22 6/22 6/17 11/17 Data simulerades från övergångsmatrisen ( ) 0.750 0.250 0.338 0.662 ) = ( 0.727 0.273 0.353 0.647 )

Att skatta övergångssannolikheter På samma sätt hade växlingar mellan 3 olika vädertyper: Vackert, Mulet och Regn. Dessa kodas som 0, 1, 2 och övergångssannolikheterna skattas med matrisen: ˆP = n 00 n 01 n 02 n 00 +n 01 +n 02 n 00 +n 01 +n 02 n 00 +n 01 +n 02 n 10 n 11 n 12 n 10 +n 11 +n 12 n 10 +n 11 +n 12 n 10 +n 11 +n 12 n 20 n 21 n 22 n 20 +n 21 +n 22 n 20 +n 21 +n 22 n 20 +n 21 +n 22 eftersom vi måste skatta sannolikheter för 9 olika övergångar mellan tillstånd. 16 / 18

Räkneexempel ifrån kompendiet Vi kan betrakta observerade frekvenser som element i en fördelningsvektor. I kompendiet (kap. 3.1, s.10) finns ett exempel där vill veta antalet små, medelstora, stora och nedlagda företag vid olika tidsperioder. De observerade startfrekvenserna är: Antal små företag: n (0) 1 = 375 Antal medelstora företag: n (0) 2 = 100 Antal stora företag: n (0) 3 = 25 Antal nedlagda företag: n (0) 4 = 0 så att startvektorn är n (0) = (n (0) 1, n(0) 2, n(0) 3, n(0) 4 ) = (375, 100, 25, 0) 17 / 18

Räkneexempel ifrån kompendiet Vet vi övergångssannolikheterna mellan dessa 4 tillstånd, dvs. övergångsmatrisen P, kan vi skatta frekvensfördelningen för olika t. T.ex. fås frekvensfördelningen vid t = 1 som: n (1) = n (0) P Med övergångsmatrisen i kompendiet beräknar vi vektorn n (1) som: 0.87 0.7 0.0 0.06 (375, 100, 25, 0) 0.06 0.81 0.06 0.07 0.0 0.03 0.85 0.12 = (332, 108, 27, 33) = n(1) 0.0 0.0 0.0 1.0 (Obs! I kompendiet ska element p 24 i P vara 0.07 och inte 0.09) 18 / 18