LÖSNINGAR TILL Matematisk statistik Tentamen: 29 7 kl 8 3 Matematikcentrum FMSF45 Matematisk statistik AK för D,I,Pi,F, 9 h Lunds universitet MASB3 Matematisk statistik AK för fysiker, 9 h. För tiden mellan två besök gäller X i Ex λ EX i λ 5s λ 5 VX i λ 2 25 a Eftersom tiden för att nå u till n 2 besökare ges av en summa av många oberoende likafördelade stokastiska variabler ger centrala gränsvärdessatsen att T n är aroximativt normalfördelad med: T n X i med ET n E X i E X i 5 n VT n V X i Eller T n N 5 n, 5 n och den sökta sannolikheten är V X i 25 n Tn 5 n PT n < 5 6 P 5 n 5 6 5 n < 5 n [n 2] Tn 9 P < Φ.442.786 7.7 7.7 Eller Φ.442 Φ.4.927.793 enl. Tabell b För ett maximum har vi 2. Vi har att Pmax X i > 3 Pmax X i < 3 [max X i < 3 alla X i < 3] För en exonentialfördelning är P X < 3 P X < 3 X 2 < 3... X n < 3 [oberoende] n n P X i < 3 P X < 3 3 f X x dx Vilket tillsammans med n 2 ger 3 λe λ x dx [ e λ x] 3 e λ 3 [λ 5 ] e 6.9975 2 Pmax X i > 3 P X < 3 e 6 2.687.393 X i λ Ex λ f x λ x λ λe λ x, x λ R.,.3 f λ λ 5,. λ.3.2
a Den gemensamma tätheten, genom att vända å formeln för betingad fördelning, är f x,λ x, λ f x λ x λ f λ λ λe λ x 5 5λe λ x x,. λ.3 b För väntevärdet, EX, är det enklast att använda väntevärde av betingad fördelning EX E EX λ EX λ f λ λ dλ Väntevärde av exonentialfördelning ger EX λ λ och EX.3. Alternativt fås en dubbel integral: EX.3..3..3 5 dλ [5 lnλ].3. λ 5 ln.3 5 ln. 5 ln 5 ln3 5.493. x f x,λ x, λ dλ dx [ 5xe λ x] [ 5 λ e λ x ]. +.3 dλ c För en multivariat fördelning har vi att PX < 3 f x,λ x, λ dλ dx A.3. 5xλe λ x dx dλ [artial integration] 5e λ x dx dλ 5 dλ [enl. ovan] 5 ln3 λ där integrationsområdet är A {x > 3}. Eftersom λ kan anta alla värden blir integralen PX < 3 3 f x,λ x, λ dλ dx 3.3. 5λe λ x dλ dx Integration med avseende å x först verkar lämligt och bekant från b PX < 3.3 3..3 5λe λ x dx dλ 5 5e 3λ dλ.3 [ 5e λ x] 3. [ 5λ + 5 ].3 dλ. 3 e 3λ..5 + 5 e 3.3.5 + 53 e 3. + e 9 e 3.997 3 6 Att först räkna ut marginalfördelningen f x x, eller att först integrera m.a.. λ, resulterar i långa och tråkiga artial integrationer. 3. Eftersom det är samma atienter före och efter en behandling är det lämligt att analysera exerimentet enligt modellen för stickrov i ar. En lämlig model är då att X i N μ i, σ x Y i N μ i + Δ, σ y Z i Y i X i N Δ, σ där X i är kolesterolvärden före dieten, Y i är efter dieten, och Z i Y i X i är förändringen till följd av dieten. För att undersöka en minskning vill vi testa H : Δ mot H : Δ < å signifikansnivån 5%. 2
Från den erhållna datan och enkla räkningar har vi att Δ z.26 s 2 Q z n 7.24.3667 f n 24 25 s.549242 dδ s s n 5.9848 Vi kan nu genomföra testet med något av Intervall: Ensidigt test ger ett ensidigt, uåt begränsat intervall I Δ, Δ + t.5 f dδ,.26 +.78.9848,.72 Intervallet innehåller inte H Δ. Test-storhet: Test-storheten ges av T Δ Δ dδ.26.9848 2.3669 Vilket ska jämföras med en undre t-kvantil t.95 f t.5 f.78. Vi noterar att T är mindre än kvantilen. I båda fallen kan vi alltså förkasta H och dieten har sänkt kolesterolvärdena. 4. Enligt ugiften har vi två skattningar med Eμ x μ Eμ y μ Vμ x σ2 Vμ y σ2 2 3 μ x.5 μ y.8 sx 2.8 sy 2.2 n x 2 n y 3 som ska kombineras enligt μ a μ x + a μ y a Väntevärdet av skattningen μ är Eμ E a μ x + a μ y aeμ x + aeμ y aμ + aμ μ Skattningen är alltid väntevärdesriktig oavsett värde å a. b Variansen av skattningen är Vμ V a μ x + a μ y [oberoende] a 2 Vμ x + a 2 Vμ y a 2 σ2 σ2 + a2 2 3 c En effektiv skattningen av μ minimerar variansen i skattningen. Alltså bör vi välja det a som minimerar variansen i föregående ugift Vμ a 2 σ2 σ2 2 + a2 3. Derivera uttrycket med avseende å a ger: 2a σ2 2 aσ2 2 3 a 2 3 + a 3 a 2 + 5a 3 6 3 2σ2 förkorta bort a 2 5 3
d En lämlig model är att de båda skattningarna, μ x och μ y, är normalfördelade med lika, men okänd, varians: μ σ σ x N μ, N μ, μ σ σ y N μ, N μ, nx 2 ny 3 Troligen beroende å att de ingående observationerna X i och Y i varit normalfördelade. Den gemensamma skattningen av μ är { 2 μ a μ x + a μ y 5.5 + 3 5.8.68 med a från 4c 3.5 + 2 3.8.7 med a /3 och den okända variansen ges av en oolad variansskattning s 2 s2 x n x + s 2 y n y n x + n y.47 s.26 som har f 9+29 48 frihetsgrader eftersom det är två skattade medelvärden. Och medelfelet i skattningen μ är { dμ a 2 s2 2 + s2 a2 3 s.2.443 med a från 4c s.237.457 med a /3 Ett intervall för den normalfördelade skattningen μ normal eftersom den är en linjär-kombination av normalvariabler blir nu { I μ μ ± t.25 f dμ.68 ± 2.6.443.3899,.97 med a från 4c.7 ± 2.6.457.47,.9929 med a /3 Baserat å Tabell 3 är t.25 48 2. rimligt eftersom tabellen endast ger t.25 4 2.2 och t.25 6 2.. 5. a Model och/eller Model 2 uvisar residualer som Inte har konstant varians minskande sridning med åren. Inte är normalfördelade eftersom normloten inte följer en linje Model 2 är sämre än Model men båda är dåliga. Residualerna i Model har en svag kvadratisk trend fler ositiva värden för 98 och 2 samt fler negativa residualer för 995. Model 3 å andra sidan uvisar residualer med jämn sridning utan tydliga mönster och som väl följer ett normalfördelnings antagande. b För arametrarn i Model 3 har vi att β S xz 3 986 52 42.764 α z β x.2244 995.7 S 2 xz 3 986 52 42 53.79 s 2 Q n 2 S zz.788 s.4228 523 2 Och konfidensintervallen för α och β är I β β ± t.25 n 2 dβ β s ±.96.764 ±.96.9.8,.728 I α α ± t.25 n 2 dα α ±.96 s n + x2 53.79 ±.96 3.6956 46.5, 6. 4
Där vi använt att t.25 n 2 t.25 25 λ.25.96. c Frågan om vilket år som blyhalten unår ett visst värde svara mot ett kalibreringsintervall. Vi har att kom ihåg ln-skalan blyhalten kommer unås z ln y ln.5.693 x z α β 22.8 med ett intervall å I x x ± t.25 n 2 dx x ±.96 22.8 ±.96.4228.764 29.9, 23.7 + 253 + 25.8322 52 42 s β + n + x x2 22.8 ±.96 5.5697 6. a Malins model leder till en binomial-fördelade model, X Bin n,, där n antalet aket som undersöks fixt och bestämt i förväg sannolikheten att ett aket är hårt. x antalet hårda aket som utäcks. Den stora skillnaden mot Kalles förslag är att att Malin i förväg bestämmer sig för hur många aket som ska undersökas. För att vara exakt är Malins model hyergeometrisk vilket blir aroximativt binomial om antalet undersökta aket, n, är mycket mindre än totalt antal aket. b För ureade observationer från en geometrisk-fördelning har vi att X i Ge med X x x Vilket ger att likelihood funktionen är L n X x i n x i som alltid är det lättare att räkna med log-likelihood funktionen n l log L log X x i log x i log + xi log Eftersom endast observationerna, x i, beror av i kan resten av termerna brytas ut ur summan l log + xi log n log + log x i Notera att log förekommer n gånger i summan. Derivering ger nu l n n x i n n x i n x i n n + x i n n + n x i x + Vilket är ML-skattningen av att lösningen faktiskt utgör ett maximum är enkelt att kontrollera. 5
c För en geometrisk fördelning har vi att EX VX 2 om X Ge vilket ger enligt känd formel för väntevärde och varians av medelvärde EX EX i VX VX i n n 2 d Aroximativt väntevärde för skattningen x+ blir nu E E X + EX + + + Och för varians har vi att skattningen som funktion av x ges av x x + med derivata x x + 2 vilket ger V x V X + + EX 2 VX 2 2 EX + 2 2 VX n 2 4 n + 2 2 n Noterat att vi inte visat att skattningen är väntevärdesriktig eftersom vi räknar med en Gaussaroximation. 6