VK Matematiska institutionen avd matematisk statistik TENTAMEN I 5B1555 DATORINTENSIVA METODER ONSDAGEN DEN 24 MAJ 2006 KL 14.00 19.00. Examinator: Gunnar Englund, tel. 7907416. Email: gunnare@math.kth.se Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk statistik. Räknare. Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara så utförliga att de är lätta att följa. Numeriska svar skall anges med minst två siffrors noggrannhet. Resultatet anslås senast onsdagen den 15 juni 2006 på Matematisk statistiks anslagstavla i entréplanet, Lindstedtsvägen 25, rakt fram innanför porten. Om Du lämnat e-mail-adress får Du meddelande om resultatet via e-mail. Lycka till! - - - - - - - - - - - - - - - - - - - - - - - - Uppgift 1 Varför väljs i Metropolis-Hastings algoritm acceptans-sannolikheten αx, y) då förslaget y givits från tillståndet x som ) πy)qy, x) αx, y) = min 1, πx)qx, y) då man försöker simulera fördelningen proportionell mot πx), x E med förslagsfördelningen qx, y), x, y E? Uppgift 2 Låt skattningen vara θ = x när vi fått observationerna x 1, x 2,, x n och θ=väntevärdet i den bakomliggande fördelningen. Observationerna ses som utfall av oberoende likafördelade stokastiska variabler. Vi gör nu icke-parametrisk bootstrap av denna skattning, dvs beräknar θ = X där X = n X i /n och X 1, X 2,, X n är oberoende likafördelade med P X i = x j ) = 1/n för i, j = 1, 2, n. Beräkna E X ) och V X ) uttryckta i x 1, x 2,, x n. Uppgift 3 Vi har n observationer x 1, x 2,, x n lagrade i Matlab-vektorn data. Observationerna ses som utfall av oberoende likafördelade stokastiska variabler. Vi skattar standardavvikelsen σ
forts tentamen i 5B1555 06-05-24 2 med plug-in-skattningen σx 1, x 2,, x n ) = 1 n x i x) 2. Vi har definierat m-filen sigmahat function est=sigmahatx); est=sqrtvarx,1)); som alltså beräknar σ ur ett datamaterial. Funktionen varx,1) beräknar σ 2. I ett material med 10 värden lagrade i vektorn data erhölls 1.0337 som resultat av sigmahatdata). a) Vad gör följande Matlab-kod? boot=bootstrp1000, sigmahat,data); y=meanboot)-sigmahatdata); Hur tolkas värdet y=-0.1207 och hur skulle det kunna användas? b) Vad gör följande Matlab-kod och vad innehåller z? 7000 6000 5000 4000 3000 2000 1000 0 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 simu=normrnd0,1,10,100000); sigma2=varsimu,1); sigma=sqrtsigma2); z=meansigma)-1; histsigma,100)
forts tentamen i 5B1555 06-05-24 3 där resultatet av histsigma) framgår av figuren Hur tolkas z=-0.0788? c) Vad gör följande Matlab-kod boot=bootstrp9999, sigmahat,data) ; boot=boot/sigmahatdata); bootsort=sortboot); r1=sigmahatdata)/bootsort9500); r2=sigmahatdata)/bootsort500); och vad innebär r1=0.7534 respektive r2=1.9004? d) Vad skulle facit för kvantiteterna i c-delen vara med normalfördelningsantagande? Uppgift 4 Vi har observationerna y 1, y 2,, y n ) som vi ser som utfall av de oberoende variablerna Y 1, Y 2,, Y n som alla har varians σ 2. Vi använder kvadratisk förlustfunktion vid prediktion och låter alltså det teoretiska prediktionsfelet vara Q pred = 1 ) E Y i n Ŷi) 2 där Y i har samma fördelning som Y i och oberoende av Y i och Ŷi är prediktorn av Y i. a) Antag att vi känner EY i ), i = 1, 2,, n och använder dessa som prediktorer. Vad blir Q pred? b) Antag nu att vi använder Y i som prediktor. Vad blir Q pred? c) Antag att Y i, i = 1, 2,, n är likafördelade med EY i ) = θ och använder Ȳ som prediktor. Vad blir Q pred? d) Vid korsvalidering är en skattning av prediktionsfelet för kvadratisk förlustfunktion) Q CV = 1 n y i ŷ i ) 2 där ŷ i är en prediktion skattning) av y i baserad på alla data utom y i. Liksom i c-delen antar vi att Y i är oberoende likafördelade med EY i ) = θ och V Y i ) = σ 2. Skriv ut Q CV så explicit som möjligt samt beräkna E Q CV ). Uppgift 5 Vi har heltalsvärda data x = x 1, x 2,, x m ) där n = x 1 + x 2 + + x m som anger hur många av n observationer som hamnat i m olika kategorier. Vi ser x som ett utfall av X = X 1, X 2,, X m ) som är en Multn, θ)-fördelad stokastisk variabel. Parametern θ = θ 1, θ 2,, θ m ) anger sannolikheterna för de m olika kategorierna där alltså m 1 θ i = 1 och de är positiva. Alltså gäller att P X = x) = n! x 1!x 2! x m! θx 1 1 θ x 2 2 θm xm
forts tentamen i 5B1555 06-05-24 4 om m 1 x i = n och 0 annars. Vi ser θ som ett utfall av Θ och låter Θ ha a-priori-fördelningen som är en s.k. Dirichletfördelning Dα 1, α 2,, α m ) = Dα) där α i > 0 π Θ θ) = Γα 1 + α 2 + α m ) Γα 1 )Γα 2 ) Γα m ) θα 1 1 1 θ α 2 1 2 θ αm 1 m, 0 θ i 1, m θ i = 1. i Dα)-fördelningen är alltså en m-dimensionell fördelning även om den bara lägger massa på ett m 1-dimensionellt underrum pga bilvillkoret m 1 θ i = 1. Med viss möda kan man visa att Dirichletα)-fördelningen har väntevärdet väntevärdesvektorn) α/ m 1 α i). a) Bestäm a-posteriori-fördelningen för Θ givet observationen x. b) Vad är Bayes-skattningen av Θ givet observationen x? Vad händer med den då n? Uppgift 6 a) Nämn en nackdel med att bias-korrigera en skattning med hjälp av bootstrap. b) Vad är argumenten för och emot de enkla percentilintervallen respektive de pivot-baserade konfidensintervallen? c) Vad är grundprincipen bakom Gibbs-sampling vid simulering av en flerdimensionell fördelning? d) Beskriv översiktligt metoden med simulated annealing.
VK Matematiska institutionen avd matematisk statistik LÖSNING TENTAMEN I 5B1555 DATORINTENSIVA METODER 24/5-2006 Uppgift 1 Kort svar: Med denna definition blir den resulterande Markov-kedjan tidsreversibel med avseende på fördelningen πx), x E och får därmed den fördelningen till stationär fördelning. Lite mer utförligt svar: Den resulterande kedjan är uppenbarligen en Markovkedja eftersom nästa tillstånd bara beror av aktuellt tillstånd och inte av de tidigare tillstånden. Vi har resultatet att om πx)p x, y) = πy)p y, x) för alla x och y så gäller att fördelningen beskriven av πx), x E eventuellt normerad) är en stationär fördelning till Markovkedjan med övergångsmatris P. Resultatet inses om man summerar över x eftersom man då erhåller för vänsterledet πx)p x, y) x som är fördelningen efter ett tidssteg i Markovkedjan då man startat den med fördelningen π Jämför p n+1) = p n) P ). För högerledet ger en summering över x πy)p y, x) = πy) P y, x) = πy) x x eftersom P är en övergångsmatris och alltså P y, x) = 1 vilket alltså innebär att π är stationär fördelning till kedjan. Vi har för y x x P x, y) = P att föreslå y start i x)p acceptera förslaget) = qx, y)αx, y) Vi får då att för y x πx)p x, y) = πx)qx, y)αx, y) = πx)qx, y) min = min πy)qy, x), πx)qx, y)) ) πy)qy, x) πx)qx, y), 1 =
forts tentamen i 5B1555 06-05-24 2 och på samma sätt byt x och y) πy)p y, x) = min πx)qx, y), πy)qy, x)) och dessa är lika! Om x = y är å andra sidan villkoret för tidsreversibilitet trivialt uppfyllt! Eftersom kedjan är tidsreversibel med avseende på π så har den också π till stationär fördelning enligt ovan. Uppgift 2 Eftersom P Xi = x j ) = 1/n för i = 1, 2, 3,, n, j = 1, 2,, n som innebär att de är likafördelade så blir E X ) = E 1 n Xi ) = 1 n EXi ) = EX1) = x j P X1 = x j ) = 1 n Eftersom X 1, X 2,,, X n dessutom är oberoende stokastiska variabler får vi x j = x V X ) = V 1 n Xi ) = 1 n 2 V Xi ) = 1 n V X 1) = 1 n E X1 EX1)) 2) = = 1 n E X 1 x) 2) = 1 n x j x) 2 1 n = 1 x n 2 j x) 2 Uppgift 3 a) Vad som beräknas är bootstrap-skattningen av bias systematiskt fel) för skattningen σ. Man skulle kunna bias-korrigera skattningen 1.0337 till 1.0337 0.1207) = 1.1545. b) Vad som görs är att 100000 stickprov om vardera 10 utfall av oberoende N0, 1)-fördelade variabler genereras. I sigma lagras skattningarna för alla dessa 100000 stickprov och z innehåller det sanna värdet på det systematiska felet för σ. c) Ett tvåsidigt 90%-igt konfidensintervall för σ beräknas på basis av pivot-variabeln T = σx 1, X 2,, X 10 )/σ genom att man simulerar dess bootstrap-fördelning dvs fördelningen för T = σx 1, X 2,, X 10) σx 1, x 2,, x 10 ). Man plockar sen ut 5% respektive 95%-percentilerna i bootstrap-fördelningen som utgör skattningar av motsvarande storheter för T -fördelningen. Om vi kallar dessa för a respektive b gäller ju 0.90 = P σx1, X 2,, X 10 ) = P a a σx 1, X 2,, X 10 ) σ ) b = σ σx 1, X 2,, X 10 ) b )
forts tentamen i 5B1555 06-05-24 3 och utfallen av dessa stokastiska gränser utgör konfidensintervallet. Vi ersätter a och b med motsvarande skattningar ut bootstrap-fördelningen och det är detta som lagras i r1 respektive r2. d) Vi får ur σ = 1.0337 att den traditionella väntevärdeskorrigerade skattningen s med division med 9 i stället för 10) blir 1.0337 10/9 = 1.0896. Ett 90%-igt konfidensintervall enligt grundkursmetoder skulle bli ) 9 s χ 2 0.959), s 9 = χ 2 0.059) = 1.0896 9/16.91, 1.0896 9/3.33) = 0.7947, 1.7927). Uppgift 4 a) Eftersom Y i och Y i har samma fördelning och alltså EY i ) = EY i ) får vi Q pred = 1 n E Y i EY i )) 2) = 1 n V Y i ) = σ 2 b) c) Q pred = 1 n E Y i Ŷi) 2 ) = E Y 1 Y 1 ) 2) = = E Y 1 EY 1 )) + Y 1 EY 1 )) 2) = oberoendet = V Y 1) + V Y 1 ) = 2σ 2. Q pred = 1 n E Y i Ȳ )2) = E Y 1 Ȳ )2) = oberoendet = d) Vi har och erhåller alltså ŷ i = 1 n 1 Q CV = 1 n = 1 n = V Y 1) + V Ȳ ) = σ2 + σ2 n = 1 + 1 n )σ2 j i ) y j = 1 y j y i = n n 1 n 1ȳ 1 n 1 y i y i ŷ i ) 2 = 1 n n n 1 y i = n 1 n 1 n 1 n ) 2 = n 1ȳ y i n n 1ȳ + 1 ) 2 n 1 y i = n n 1) 2 y i ȳ) 2 = y i ȳ) 2 = n n 1 s2 Eftersom Es 2 ) = σ 2 erhåller vi E Q CV ) = nσ 2 /n 1).
forts tentamen i 5B1555 06-05-24 4 Uppgift 5 Med hjälp av Bayes sats får vi när vi håller reda på beroendet av θ f Θ θ X = x) = P X = x Θ = θ)π Θθ) P X = x) P X = x Θ = θ)π Θ θ) θ α 1+x 1 1 1 θ α 2+x 2 1 1 θ αm+xm 1 m som vi kan identifiera som Dα 1 + x 1, α 2 + x 2,, α m + x m )-fördelningen. b) Vi har enligt a-delen att Θ X = x är Dα + x)-fördelad och Bayes-skattningen blir alltså dvs för komponent j har vi EΘ X = x) = α + x m 1 α i + m 1 x i EΘ j X = x) = α j + x j m 1 α i + n. = α + x m 1 α i + n Då n gäller att Bayes-skattningen går mot x/n, dvs ML-skattningen. Uppgift 6 a) I allmänhet får den bias-korrigerade skattningen större varians. b) De enkla percentilintervallen blir transformationsinvarianta och dessutom respekterar de gränser för möjliga värden på parametern. De är dessutom mycket enkla att ta fram - man behöver inte fundera över vilken transformation man skall ta till för att få en pivot-variabel. Nackdelen är att de inte alls kan ta hand om skevhet eller bristande väntevärdesriktighet utan förlänger då intervallet åt fel håll. De pivot-baserade intervallen har fördelen att vara mer korrekta om man har en bra pivot-variabel och dessutom uppträder de vettigt om skattningen har bias eller har en skev fördelning. Nackdelen är att det ofta kan vara svårt att konstruera en lämplig approximativ) pivot-variabel. Dessutom är de ej transformationsinvarianta och kan ge konfidensintervall utanför naturliga gränser för parametern. c) Man uppdaterar varje koordinat med den betingade fördelningen för denna givet alla de övriga. d) Man vill minimera funktionen Ex), x χ där χ är en ändlig men stor mängd. För ett fixt β > 0 skapar man en Markovkedja som har stationära fördelningen given av P β x) = e βex) u χ e βeu), x χ och denna simuleras genom att man från punkten x har en förslagsfördelning qx, y) på närmaste grannar till x. Oftast väljs qx, y) så att qx, y) = qy, x) dvs att alla punkter har samma antal grannar. Man accepterar förslaget y med sannolikheten αx, y) = min 1, P ) βy)qy, x) = min 1, expβex) Ey)))) P β x)qx, y)
forts tentamen i 5B1555 06-05-24 5 åtminstone om qx, y) = qy, x). Detta innebär att alltid acceptera förslag y om Ey) Ex) dvs då y är en bättre punkt än x. Om Ey) > Ex), dvs då y är en sämre punkt, så accepteras förslaget med sannoliheten expβex) Ey))) < 1. Detta innebär att algoritmen är ett specialfall av Metropolis-Hastings algoritm och får alltså P β till stationär fördelning. Algoritmen startas med ett litet startvärde β 0 på β och man simulerar tills man tror sig ha uppnått stationära fördelningen. Sedan ökas β till β 1 och man simulerar vidare tills man uppnått stationäritet varefter man upprepar förfarandet tills β är stort. För β stort är nämligen P β nästan helt koncentrerad i minimipunkterna till Ex).