Lycka till!

Relevanta dokument
Om Markov Chain Monte Carlo

Uppgift 1. f(x) = 2x om 0 x 1

Avd. Matematisk statistik

0 om x < 0, F X (x) = c x. 1 om x 2.

P =

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Avd. Matematisk statistik

Lycka till! I(X i t) 1 om A 0 annars I(A) =

e x/1000 för x 0 0 annars

Lycka till!

Markov Chain Monte Carlo, contingency tables and Gröbner bases

Avd. Matematisk statistik

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Avd. Matematisk statistik

b) Teknologen Osquarulda känner inte till ML-metoden, men kom på intuitiva grunder fram till att p borde skattas med p = x 1 + 2x 2

Lufttorkat trä Ugnstorkat trä

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

f(x) = 2 x2, 1 < x < 2.

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

AMatematiska institutionen avd matematisk statistik

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Avd. Matematisk statistik

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Avd. Matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Avd. Matematisk statistik

1 e (λx)β, för x 0, F X (x) = 0, annars.

b) Förekommer A- och B-fel oberoende av varandra? (Motivering krävs naturligtvis!) (5 p)

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Avd. Matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

FACIT: Tentamen L9MA30, LGMA30

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

9. Konfidensintervall vid normalfördelning

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

Matematisk statistik KTH. Formelsamling i matematisk statistik

Avd. Matematisk statistik

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Individ nr Första testet Sista testet

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901: Medelfel, felfortplantning

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Matematisk statistik TMS064/TMS063 Tentamen

TENTAMEN I SF2937 (f d 5B1537) TILLFÖRLITLIGHETSTEORI TORSDAGEN DEN 14 JANUARI 2010 KL

Avd. Matematisk statistik

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Föreläsning 12: Linjär regression

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Föreläsning 11: Mer om jämförelser och inferens

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Avd. Matematisk statistik

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

SF1901 Sannolikhetsteori och statistik I

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik för D, I, Π och Fysiker

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Thomas Önskog 28/

Kurssammanfattning MVE055

Föreläsningsanteckningar till kapitel 8, del 2

b) Vad är sannolikheten att personen somnar i lägenheten? (4 p) c) Hur många gånger förväntas personen byta rum? (4 p)

Föreläsning 8: Konfidensintervall

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

, för 0 < x < θ; Uppgift 2

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

** a) Vilka värden ska vara istället för * och **? (1 p) b) Ange för de tre tillstånden vilket som svarar mot 0,1,2 i figuren.

Tentamen MVE301 Sannolikhet, statistik och risk

Laboration 3: Hierarkiska binomialmodeller i R

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Avd. Matematisk statistik

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL

Tentamen i Matematisk Statistik, 7.5 hp

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik för D, I, Π och Fysiker

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Tentamen i Matematisk statistik Kurskod S0001M

Avd. Matematisk statistik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Transkript:

VK Matematiska institutionen avd matematisk statistik TENTAMEN I 5B1555 DATORINTENSIVA METODER ONSDAGEN DEN 24 MAJ 2006 KL 14.00 19.00. Examinator: Gunnar Englund, tel. 7907416. Email: gunnare@math.kth.se Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik. Räknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Resultatet anslås senast onsdagen den 15 juni 2006 på Matematisk statistiks anslagstavla i entréplanet, Lindstedtsvägen 25, rakt fram innanför porten. Om Du lämnat e-mail-adress får Du meddelande om resultatet via e-mail. Lycka till! - - - - - - - - - - - - - - - - - - - - - - - - Uppgift 1 Varför väljs i Metropolis-Hastings algoritm acceptans-sannolikheten αx, y) då förslaget y givits från tillståndet x som ) πy)qy, x) αx, y) = min 1, πx)qx, y) då man försöker simulera fördelningen proportionell mot πx), x E med förslagsfördelningen qx, y), x, y E? Uppgift 2 Låt skattningen vara θ = x när vi fått observationerna x 1, x 2,, x n och θ=väntevärdet i den bakomliggande fördelningen. Observationerna ses som utfall av oberoende likafördelade stokastiska variabler. Vi gör nu icke-parametrisk bootstrap av denna skattning, dvs beräknar θ = X där X = n X i /n och X 1, X 2,, X n är oberoende likafördelade med P X i = x j ) = 1/n för i, j = 1, 2, n. Beräkna E X ) och V X ) uttryckta i x 1, x 2,, x n. Uppgift 3 Vi har n observationer x 1, x 2,, x n lagrade i Matlab-vektorn data. Observationerna ses som utfall av oberoende likafördelade stokastiska variabler. Vi skattar standardavvikelsen σ

forts tentamen i 5B1555 06-05-24 2 med plug-in-skattningen σx 1, x 2,, x n ) = 1 n x i x) 2. Vi har definierat m-filen sigmahat function est=sigmahatx); est=sqrtvarx,1)); som alltså beräknar σ ur ett datamaterial. Funktionen varx,1) beräknar σ 2. I ett material med 10 värden lagrade i vektorn data erhölls 1.0337 som resultat av sigmahatdata). a) Vad gör följande Matlab-kod? boot=bootstrp1000, sigmahat,data); y=meanboot)-sigmahatdata); Hur tolkas värdet y=-0.1207 och hur skulle det kunna användas? b) Vad gör följande Matlab-kod och vad innehåller z? 7000 6000 5000 4000 3000 2000 1000 0 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 simu=normrnd0,1,10,100000); sigma2=varsimu,1); sigma=sqrtsigma2); z=meansigma)-1; histsigma,100)

forts tentamen i 5B1555 06-05-24 3 där resultatet av histsigma) framgår av figuren Hur tolkas z=-0.0788? c) Vad gör följande Matlab-kod boot=bootstrp9999, sigmahat,data) ; boot=boot/sigmahatdata); bootsort=sortboot); r1=sigmahatdata)/bootsort9500); r2=sigmahatdata)/bootsort500); och vad innebär r1=0.7534 respektive r2=1.9004? d) Vad skulle facit för kvantiteterna i c-delen vara med normalfördelningsantagande? Uppgift 4 Vi har observationerna y 1, y 2,, y n ) som vi ser som utfall av de oberoende variablerna Y 1, Y 2,, Y n som alla har varians σ 2. Vi använder kvadratisk förlustfunktion vid prediktion och låter alltså det teoretiska prediktionsfelet vara Q pred = 1 ) E Y i n Ŷi) 2 där Y i har samma fördelning som Y i och oberoende av Y i och Ŷi är prediktorn av Y i. a) Antag att vi känner EY i ), i = 1, 2,, n och använder dessa som prediktorer. Vad blir Q pred? b) Antag nu att vi använder Y i som prediktor. Vad blir Q pred? c) Antag att Y i, i = 1, 2,, n är likafördelade med EY i ) = θ och använder Ȳ som prediktor. Vad blir Q pred? d) Vid korsvalidering är en skattning av prediktionsfelet för kvadratisk förlustfunktion) Q CV = 1 n y i ŷ i ) 2 där ŷ i är en prediktion skattning) av y i baserad på alla data utom y i. Liksom i c-delen antar vi att Y i är oberoende likafördelade med EY i ) = θ och V Y i ) = σ 2. Skriv ut Q CV så explicit som möjligt samt beräkna E Q CV ). Uppgift 5 Vi har heltalsvärda data x = x 1, x 2,, x m ) där n = x 1 + x 2 + + x m som anger hur många av n observationer som hamnat i m olika kategorier. Vi ser x som ett utfall av X = X 1, X 2,, X m ) som är en Multn, θ)-fördelad stokastisk variabel. Parametern θ = θ 1, θ 2,, θ m ) anger sannolikheterna för de m olika kategorierna där alltså m 1 θ i = 1 och de är positiva. Alltså gäller att P X = x) = n! x 1!x 2! x m! θx 1 1 θ x 2 2 θm xm

forts tentamen i 5B1555 06-05-24 4 om m 1 x i = n och 0 annars. Vi ser θ som ett utfall av Θ och låter Θ ha a-priori-fördelningen som är en s.k. Dirichletfördelning Dα 1, α 2,, α m ) = Dα) där α i > 0 π Θ θ) = Γα 1 + α 2 + α m ) Γα 1 )Γα 2 ) Γα m ) θα 1 1 1 θ α 2 1 2 θ αm 1 m, 0 θ i 1, m θ i = 1. i Dα)-fördelningen är alltså en m-dimensionell fördelning även om den bara lägger massa på ett m 1-dimensionellt underrum pga bilvillkoret m 1 θ i = 1. Med viss möda kan man visa att Dirichletα)-fördelningen har väntevärdet väntevärdesvektorn) α/ m 1 α i). a) Bestäm a-posteriori-fördelningen för Θ givet observationen x. b) Vad är Bayes-skattningen av Θ givet observationen x? Vad händer med den då n? Uppgift 6 a) Nämn en nackdel med att bias-korrigera en skattning med hjälp av bootstrap. b) Vad är argumenten för och emot de enkla percentilintervallen respektive de pivot-baserade konfidensintervallen? c) Vad är grundprincipen bakom Gibbs-sampling vid simulering av en flerdimensionell fördelning? d) Beskriv översiktligt metoden med simulated annealing.

VK Matematiska institutionen avd matematisk statistik LÖSNING TENTAMEN I 5B1555 DATORINTENSIVA METODER 24/5-2006 Uppgift 1 Kort svar: Med denna definition blir den resulterande Markov-kedjan tidsreversibel med avseende på fördelningen πx), x E och får därmed den fördelningen till stationär fördelning. Lite mer utförligt svar: Den resulterande kedjan är uppenbarligen en Markovkedja eftersom nästa tillstånd bara beror av aktuellt tillstånd och inte av de tidigare tillstånden. Vi har resultatet att om πx)p x, y) = πy)p y, x) för alla x och y så gäller att fördelningen beskriven av πx), x E eventuellt normerad) är en stationär fördelning till Markovkedjan med övergångsmatris P. Resultatet inses om man summerar över x eftersom man då erhåller för vänsterledet πx)p x, y) x som är fördelningen efter ett tidssteg i Markovkedjan då man startat den med fördelningen π Jämför p n+1) = p n) P ). För högerledet ger en summering över x πy)p y, x) = πy) P y, x) = πy) x x eftersom P är en övergångsmatris och alltså P y, x) = 1 vilket alltså innebär att π är stationär fördelning till kedjan. Vi har för y x x P x, y) = P att föreslå y start i x)p acceptera förslaget) = qx, y)αx, y) Vi får då att för y x πx)p x, y) = πx)qx, y)αx, y) = πx)qx, y) min = min πy)qy, x), πx)qx, y)) ) πy)qy, x) πx)qx, y), 1 =

forts tentamen i 5B1555 06-05-24 2 och på samma sätt byt x och y) πy)p y, x) = min πx)qx, y), πy)qy, x)) och dessa är lika! Om x = y är å andra sidan villkoret för tidsreversibilitet trivialt uppfyllt! Eftersom kedjan är tidsreversibel med avseende på π så har den också π till stationär fördelning enligt ovan. Uppgift 2 Eftersom P Xi = x j ) = 1/n för i = 1, 2, 3,, n, j = 1, 2,, n som innebär att de är likafördelade så blir E X ) = E 1 n Xi ) = 1 n EXi ) = EX1) = x j P X1 = x j ) = 1 n Eftersom X 1, X 2,,, X n dessutom är oberoende stokastiska variabler får vi x j = x V X ) = V 1 n Xi ) = 1 n 2 V Xi ) = 1 n V X 1) = 1 n E X1 EX1)) 2) = = 1 n E X 1 x) 2) = 1 n x j x) 2 1 n = 1 x n 2 j x) 2 Uppgift 3 a) Vad som beräknas är bootstrap-skattningen av bias systematiskt fel) för skattningen σ. Man skulle kunna bias-korrigera skattningen 1.0337 till 1.0337 0.1207) = 1.1545. b) Vad som görs är att 100000 stickprov om vardera 10 utfall av oberoende N0, 1)-fördelade variabler genereras. I sigma lagras skattningarna för alla dessa 100000 stickprov och z innehåller det sanna värdet på det systematiska felet för σ. c) Ett tvåsidigt 90%-igt konfidensintervall för σ beräknas på basis av pivot-variabeln T = σx 1, X 2,, X 10 )/σ genom att man simulerar dess bootstrap-fördelning dvs fördelningen för T = σx 1, X 2,, X 10) σx 1, x 2,, x 10 ). Man plockar sen ut 5% respektive 95%-percentilerna i bootstrap-fördelningen som utgör skattningar av motsvarande storheter för T -fördelningen. Om vi kallar dessa för a respektive b gäller ju 0.90 = P σx1, X 2,, X 10 ) = P a a σx 1, X 2,, X 10 ) σ ) b = σ σx 1, X 2,, X 10 ) b )

forts tentamen i 5B1555 06-05-24 3 och utfallen av dessa stokastiska gränser utgör konfidensintervallet. Vi ersätter a och b med motsvarande skattningar ut bootstrap-fördelningen och det är detta som lagras i r1 respektive r2. d) Vi får ur σ = 1.0337 att den traditionella väntevärdeskorrigerade skattningen s med division med 9 i stället för 10) blir 1.0337 10/9 = 1.0896. Ett 90%-igt konfidensintervall enligt grundkursmetoder skulle bli ) 9 s χ 2 0.959), s 9 = χ 2 0.059) = 1.0896 9/16.91, 1.0896 9/3.33) = 0.7947, 1.7927). Uppgift 4 a) Eftersom Y i och Y i har samma fördelning och alltså EY i ) = EY i ) får vi Q pred = 1 n E Y i EY i )) 2) = 1 n V Y i ) = σ 2 b) c) Q pred = 1 n E Y i Ŷi) 2 ) = E Y 1 Y 1 ) 2) = = E Y 1 EY 1 )) + Y 1 EY 1 )) 2) = oberoendet = V Y 1) + V Y 1 ) = 2σ 2. Q pred = 1 n E Y i Ȳ )2) = E Y 1 Ȳ )2) = oberoendet = d) Vi har och erhåller alltså ŷ i = 1 n 1 Q CV = 1 n = 1 n = V Y 1) + V Ȳ ) = σ2 + σ2 n = 1 + 1 n )σ2 j i ) y j = 1 y j y i = n n 1 n 1ȳ 1 n 1 y i y i ŷ i ) 2 = 1 n n n 1 y i = n 1 n 1 n 1 n ) 2 = n 1ȳ y i n n 1ȳ + 1 ) 2 n 1 y i = n n 1) 2 y i ȳ) 2 = y i ȳ) 2 = n n 1 s2 Eftersom Es 2 ) = σ 2 erhåller vi E Q CV ) = nσ 2 /n 1).

forts tentamen i 5B1555 06-05-24 4 Uppgift 5 Med hjälp av Bayes sats får vi när vi håller reda på beroendet av θ f Θ θ X = x) = P X = x Θ = θ)π Θθ) P X = x) P X = x Θ = θ)π Θ θ) θ α 1+x 1 1 1 θ α 2+x 2 1 1 θ αm+xm 1 m som vi kan identifiera som Dα 1 + x 1, α 2 + x 2,, α m + x m )-fördelningen. b) Vi har enligt a-delen att Θ X = x är Dα + x)-fördelad och Bayes-skattningen blir alltså dvs för komponent j har vi EΘ X = x) = α + x m 1 α i + m 1 x i EΘ j X = x) = α j + x j m 1 α i + n. = α + x m 1 α i + n Då n gäller att Bayes-skattningen går mot x/n, dvs ML-skattningen. Uppgift 6 a) I allmänhet får den bias-korrigerade skattningen större varians. b) De enkla percentilintervallen blir transformationsinvarianta och dessutom respekterar de gränser för möjliga värden på parametern. De är dessutom mycket enkla att ta fram - man behöver inte fundera över vilken transformation man skall ta till för att få en pivot-variabel. Nackdelen är att de inte alls kan ta hand om skevhet eller bristande väntevärdesriktighet utan förlänger då intervallet åt fel håll. De pivot-baserade intervallen har fördelen att vara mer korrekta om man har en bra pivot-variabel och dessutom uppträder de vettigt om skattningen har bias eller har en skev fördelning. Nackdelen är att det ofta kan vara svårt att konstruera en lämplig approximativ) pivot-variabel. Dessutom är de ej transformationsinvarianta och kan ge konfidensintervall utanför naturliga gränser för parametern. c) Man uppdaterar varje koordinat med den betingade fördelningen för denna givet alla de övriga. d) Man vill minimera funktionen Ex), x χ där χ är en ändlig men stor mängd. För ett fixt β > 0 skapar man en Markovkedja som har stationära fördelningen given av P β x) = e βex) u χ e βeu), x χ och denna simuleras genom att man från punkten x har en förslagsfördelning qx, y) på närmaste grannar till x. Oftast väljs qx, y) så att qx, y) = qy, x) dvs att alla punkter har samma antal grannar. Man accepterar förslaget y med sannolikheten αx, y) = min 1, P ) βy)qy, x) = min 1, expβex) Ey)))) P β x)qx, y)

forts tentamen i 5B1555 06-05-24 5 åtminstone om qx, y) = qy, x). Detta innebär att alltid acceptera förslag y om Ey) Ex) dvs då y är en bättre punkt än x. Om Ey) > Ex), dvs då y är en sämre punkt, så accepteras förslaget med sannoliheten expβex) Ey))) < 1. Detta innebär att algoritmen är ett specialfall av Metropolis-Hastings algoritm och får alltså P β till stationär fördelning. Algoritmen startas med ett litet startvärde β 0 på β och man simulerar tills man tror sig ha uppnått stationära fördelningen. Sedan ökas β till β 1 och man simulerar vidare tills man uppnått stationäritet varefter man upprepar förfarandet tills β är stort. För β stort är nämligen P β nästan helt koncentrerad i minimipunkterna till Ex).