LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

LÖSNINGAR TILL Matematisk statistik, Tentamen: 011 10 1 kl 14 00 19 00 Matematikcentrum FMS 086, Matematisk statistik för K och B, 7.5 hp Lunds tekniska högskola MASB0, Matematisk statistik kemister, 7.5 hp Lunds universitet 1. a) Den genomsnittliga koncentrationen μ kan skattas med medelvärdet. Kallar vi observationerna x i, i 1... n 31 fås μ x 1 n x i 69.70.484 n 31 Denna skattning av väntevärdet kan vi göra oavsett vilken fördelning observationerna har. Men bara en punktskattning säger inte så mycket, en intervallskattning säger betydligt mer. Men då behöver vi en modell för observationernas fördelning. Nu ser man inte direkt på siffrorna vilken fördelning det rör sig om, men anta att de är normalfördelade, dvs x i obs. av X i N μ, σ ), oberoende av varandra då kan vi räkna ut ett 95% konfidensintervall för μ [ σ ) 1 n n ] x i x) 1 xi n x I μ μ ± t α/ f )dμ ) x ± t 0.05 ) σ n.484 ±.04 som med 95% sannolikhet täcker rätt värde på μ. Alternativt kan man som modell tänka sig att x i är obs. av X i som är ober. likafördelade med EX i ) μ och V X i ) σ 1 [ 195.03 31.484 ] 1.77 30 1.77 31 [1.83,.66] Enligt CGS n är väl hyfsat stor) bör då μ vara ungefär normalfördelad, och vi kan göra ett konfidensintervall som ovan. I detta fall kan man kanske använda en z-kvantil i stället för t-kvantilen. b) Koncentrationen 3 mg/l verkar inte rimlig då den inte ens täcks av konfidensintervallet i a).. a) Det belopp en kund är villig att betala modelleras här med en kontinuerlig slumpvariabel X det är en täthetsfunktion som är given). Sannolikheten att en kund är villig att betala mer än kronor blir PX > ) f x) dx 00 1 00 00 / 0 000 00 x 0 000 dx 1 0 000 1 15 16 1 16 0.065 b) Väntevärdet av kundernas betal-villighet är 00 EX ) x f x) dx x 00 x 0 0 000 dx 1 [ 00x 0 000 1 ) 00 00 003 00 66.67 kr 0 000 3 3 ] 00 [00x x ] 00 x3 3 0 3. a) Modell: y i är observationer av Y i α + βx i + ε i där ε i N 0, σ ) är oberoende av varandra. Parametrarna α och β skattas med β S xy S xx 019005 9635 0.8806, α ȳ β x 684.33 0.8806 110.8 30.7

b) Om regnmängden är x 0 1300 mm ett år kan avrinningen skattas med α + β x 0. Efter att vi skattat σ kan vi beräkna ett 95% prediktionsintervall för avrinningen detta år ) s 1 S yy S xy 78.49 n S xx I Y x0 ) α + β x 0 ± t p/ n ) s 1 + 1 n + x 0 x) S xx 84.15 ±.00 78.49 1.0151 [683, 100] mm Använder man tabell för att slå upp t-kvantilen kan man kanske använda t 0.05 60) i stället för t 0.05 59) de skiljer sig först i tredje decimalen). c) Eftersom β anger hur mycket avrinningen ökar då regnmängden ökar en enhet kan vi göra ett konfidensintervall för β och sedan transformera det till ett för 100β. I β β ± t a/ n )dβ ) β ± t 0.05 59) [0.7769, 0.9844] I 100β 100I β [77.7, 98.4] s 78.49 0.8806 ±.00 Sxx 9635 4. a) Om vi låter x i vara kolesterolhalten innan studien för de som ej drack kaffe och y i motsvarande för de som drack kaffe så får vi modellera detta som två oberoende stickprov. Antag att det är lämpligt med normalfördelning och samma varians. Dvs Vi vill testa x i obs. av X i N μ x, σ ), i 1... n x 5 y i obs. av Y i N μ y, σ ), i 1... n y 8 H 0 : μ x μ y 0 H 1 : μ x μ y 0 Jag väljer α 5% felrisk och att göra testet med en testkvantitet. Skattningar av parametrar samt testkvantiteten fås till μ x x 1 n x s x 1 n x 1 1 5 1 s y 1 n y 1 1 8 1 n x n x x i 1763 5 x i x) 1 n x 1 35.6, μ y ȳ 1 n y n y nx ) xi n x x 6507 5 35.600 ) 893.3 n y y i ȳ) 1 n y 1 ny ) yi n y ȳ 90475 8 335.50 ) 801.6 s p n x 1)s x + n y 1)s y n x 1 + n y 1 T μ x μ y 0 dμ x μ y ) μ x μ y 0 s p 1 n x + 1 n y 4 893.3 + 7 801.6 4 + 7 35.60 335.5 834.97 1 5 + 1 8 y i 68 8 834.97 1.05 335.5 Eftersom testkvantitetens belopp ej överskrider t α/ n x 1 + n y 1) t 0.05 11).0 kan H 0 ej förkastas; det var ingen signifikant skillnad mellan de två grupperna innan studien startade.

b) För att undersöka om de som ej drack kaffe ändrade sin kolesterolhalt behöver vi bara använda den första tabellen i uppgiften. Det rör sig uppenbarligen om stickprov i par, så modellen är vi kan återanvända beteckningarna x i och y i ) Person nr. i 1 3 4 5 observation av Före, x i 401 345 346 35 319 X i N μ i, σ 1 ) Här är väntevärdet av förändringen ökningen) Δ, så vi vill Efter, y i 305 65 66 76 50 Y i N μ i + Δ, σ ) Ökning, z i y i x i -96-80 -80-76 -69 Z i N Δ, σ) testa H 0 : Δ 0 H 1 : Δ 0 Jag väljer samma felrisk, men skojjar till det med konfidensmetoden i stället. 5 Δ z z i 80.0, σ s z 1 5 z i z) 5 1 9.9096 I Δ Δ ± t α/ 5 1) s z 80.0 ±.78 9.9096 [ 9.5, 67.9] 5 5 Eftersom intervallet ej täcker punkten noll kan H 0 förkastas med 5% felrisk och betydligt lägre felrisk än så; P-värdet är ungefär 5 10 5 ). De om slutade med kaffe hade alltså en signifikant förändring av kolesterolhalten. 5. a) Låt X R vara antalet justeringar under en tioårsperiod för apparaten i Rörvik. Då är x R 4 en observation av X R och X R Binn, p R ) där n 3650 är antalet dagar under en tioårsperiod och p R är sannolikheten att Rörviks-apparaten behöver justeras vid ett kontrolltillfälle. p R skattas med p R x R/n 4/3650 0.0115 och vi kan göra ett konfidensintervall för p R I pr p R ± z α/ dp R) p R ± z 0.05 p R 1 p R ) n 0.0115 ± 1.96 0.0018 [0.0080, 0.015] Nu söktes ett intervall för medelantalet justeringar. Detta fås genom att multiplicera det uträknade intervallet med n 3650 I npr [3650 0.0080, 3650 0.015] [9.4, 54.6] Intervallet bygger på normalapproximation så vi får kontrollera om den är giltig. n R 1 p R ) 3650 0.0115 1 0.0115) 41.5 vilket klart överskrider tumregeln 10. Alternativt kan vi tänka oss att antalet justeringar under en tioårsperiod är Poissonfördelat, X R Poμ R ). Ett konfidensintervall för medelantalet justeringar blir då I μr μ R ± z α/ dμ R) x R ± z 0.05 xr 4 ± 1.96 4 [9.3, 54.7] Även detta intervall bygger på normalapproximation och den är giltig eftersom μ R 4 överskrider tumregeln 15. b) För att undersöka om Hoburgsapparaten är signifikant) bättre än den i Rörvik beträffande medelantalet justeringar kan vi lika gärna betrakta sannolikheterna för justering. Vi vill testa H 0 : p H p R 0 H 1 : p H p R < 0 Vi kan t.ex. använda ett ensidigt hypotestest p H p R. p H skattas på samma sätt som ovan till p H x H/n 31/3650 0.0085. Även denna skattning är approximativt normalfördelat eftersom n H 1 p H ) 3650 0.0085 1 0.0085) 30.7 överskrider 10. Under H 0 skattas ett gemensamt p till p 4 + 31)/3650 + 3650) 0.0100 och vi får normalapproximera under H 0 eftersom p 1 p )3650 36.14 > 10.

Medelfelet för skillnaden i sannolikhet under H 0 ) är 1 dp H p R) p 1 p ) 3650 + 1 ) 0.003 3650 och teststorheten blir T p H p R dp H p R ) 1.816 vilket ska jämnföras med en λ α 1.6449 kvantil. Eftersom T 1.816 kan H 0 inte förkastas, Hoburgsapparaten verkar inte vara signifikant bättre med 5% felrisk. 6. a) Om X är antalet olyckor per år så är X Po.5) och p X k) PX k) e.5.5k k!. Den sökta sannolikheten blir P1 X 4) 4 k1 p X k) e.5.51 1! +.5! +.53 3! +.54 ) 4! 0.081.5 + 3.15 +.604 + 1.676) 0.8091 Sannolikheten kan även räknas ut som F X 4) F X 0) om man har tillgång till den men μ.5 är inte med i tabellen över F X x)). b) Med ett systematiskt fel på 0.09 mg/l där är inget minustecken så felet torde väl vara positivt) kan man helt enkelt bara dra bort felet från medelvärdet, medans standardavvikelsen inte påverkas av en förflyttning det är samma spridning kring det nya medelvärdet). Således kan vi även bara dra bort felet från konfidensintervallets gränser. De korrigerade värdena blir alltså x 0.455 0.09 0.365, s 0.056, I μ [0.415 0.09, 0.495 0.09] [0.35, 0.405] Vill man övertyga sig om att korrigeringen av medelvärdet är rätt samt att standardavvikelsen eller variansen) inte påverkas av korrigeringen kan man kalla de korrigerade mätvärdena för y i och de okorrigerade för x i. Då är alltså y i x i d där d 0.09 och ȳ 1 n y i 1 n x i d) 1 n x i ) n d n n n n x d s y 1 n men det behöver man inte visa. y i ȳ) 1 c) För att göra hypotestet för μ, t.ex H 0 : μ μ 0 H 1 : μ μ 0 n x i d x d)) 1 n x i x) sx kan man använda konfidensmetoden, som innebär att nollhypotesen kan förkastas med felrisken α om μ 0 ej täcks av ett konfidensintervall för μ med konfidensgraden 1 α. d) Här kan vi endast) använda direktmetoden för att utföra testet. H 0 förkastas om P-värdet är mindre än felrisken α. P PFå det vi fått eller värre om H 0 är sann) PX 1 om p 1/) F X 1) [Tabell 5, n 10, p 1/, x 1] 0.0107 H 0 kan alltså förkastas på nivå 0.05 men inte 0.01). Alternativt kan man räkna ut sannolikheten som p X 0) + p X 1).

e) För att avgöra vilka effekter som är signifikanta kan vi t.ex. göra 95% konfidensintervall för dem. Det är bara punktskattningarna som skiljer de olika konfidensintervallen I effekt êffekt ± t α/ )) dêffekt) êffekt ± t α/ 8) dêffekt) êffekt ±.31 0.35 êffekt ± 0.81 Vi ser att intervallen för A och AB ej täcker 0 medans intervallet för B gör det. A och AB är således signifikant men ej B. A påverkar alltså responsen medans B gör det genom samspel med A.