FACIT för Förberedelseuppgifter: SF9 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 206 KL 4.00 9.00. Examinator: Timo Koski - - - - - - - - - - - - - - - - - - - - - - - - 0. FACIT Problem 0... Låt p X ( a och p X (4 b där vi först söker a och b. Eftersom totala sannolikhetsmassan så får vi 4 p X (k p X (k 0.2 + 0. + 0. + a + b k dvs a + b 0.4. Vidare är enligt texten E(X.8 som ger.8 k0 k kp X (k 0.5 + a + 4b dvs a + 4b.. Dessa två samband ger a 0. och b 0.. Vidare är E(X 2 4 k 2 p X (k 0 2 0.2 + 2 0. + 2 2 0. + 2 0. + 4 2 0. 5.0 k0 Detta ger V (X E(X 2 (E(X 2 5.0.8 2.76. Problem 0..2. Eftersom P (A P (A B är A och B ej oberoende. Problem 0... a E(X Y + E(X E(Y + 6 0 + 9 b V (X Y + 2 V (X + ( 2 V (Y 9 2 2 + 2 45. Alltså får vi D(X Y 45 6.708.
2 Problem 0..4. a P (X 0.5 X 0.25 b Vi får genom derivering tätheten Vi får alltså E(X P (X 0.5 och X 0.25 P (X 0.25 F X(0.5 F X (0.25 0.5 0.25 8 9 0.889 f X (x df X(x dx xf X (xdx { x 2 om 0 x 0 0 för övrigt 0 P (X 0.5 P (X 0.25 x dx 4 x4 4 0.75. c Vi har V (X E(X 2 (E(X 2 och beräknar därför E(X 2 och erhåller E(X 2 x 2 f X (xdx 0 x 4 5 x5 5. Alltså erhålls V (X E(X 2 (E(X 2 /5 (/4 2 /5 9/6 /80 0.075. Problem 0..5. 0 P (2 X 5 P ( 2 X 5 4 4 4 P ( 0.25 X 0.5 4 Φ(0.5 Φ( 0.25 Φ(0.5 ( Φ(0.25 Φ(0.5 + Φ(0.25 0.2904 Problem 0..6. a Låt oss införa följande händelser: C tryckhållfasthet > 600. A prov från företag A. B prov från företag B. Låt dessutom X A N (6000, 00 2 och X B N (600, 00 2 beteckna tryckhållfasthet givet A resp. B. SÖKT är P (C. Lagen om total sannolikhet (LTS ger Enligt uppgiften är P (C P (C A P (A + P (C B P (B. P (C A P (X A > 600 Φ ((600 6000/00 Φ (
med övergång till standardiserad normalfördelning. Dessutom är Därmed fås En tabellslagning ger P (C B P (X B > 600 Φ ((600 600/00 Φ (0 2. SVAR: P (C (2 0.84 0.86. P (C ( Φ ( + 2 2 (2 Φ (. b SÖKT ÄR P (A C. Enligt Bayes sats gäller att P (A C P (C A P (A. P (C Från ovan och från tabellen i formelsamlingen erhålles att P (A C ( Φ ( P (C ( 0.84 0.86 0.70. Problem 0..7. Järnhaltshöjningarna z i y i x i är utfall av oberoende N (m, σ 2 -fördelade stokastiska variabler där m och σ skattas med z 7.94 och s z.9. För att se ifall pillret höjer järnhalten är grundinställningen (nollhypotesen som skall motbevisas att höjningen är liten eller måttlig (m 25 och alternativhypotesen att höjningen är stor m > 25. Att förkasta H 0 betyder att nollhypotesen är orimlig och alternativhypotesen mer trolig, dvs vi kan anse att en stor höjning av järnhalten är bevisad. Vi förkastar H 0 till förmån för H för stora värden på t z 25 s z / n som om H 0 är sann är ett utfall från en t(n t(4-fördelning. Ur t(4-tabell fås att t 0.05 2.. Alltså, förkasta H 0 om t > 2.. Vi observerar utfallet t z 25 s z / n 2.4 och förkastar H 0 på nivå 5%. Tabletterna höjer järnhalten med mer än 25 gram/liter. Uppgiften kan även lösas med konfidensmetoder med ett enkelsidigt intervall av typen ( x t 0.05 (5 s z / 5,. Problem 0..8.
4 Parade observationer, dvs att för legering i är mätvärdena utfall av N (m i, σ 2 respektive N (m i +, σ 2 2. Alla variabler antas oberoende. Vi bildar parvisa skillnader, z i : 0.5-0. 0.6 0.4 0.4. Man erhåller att z0,2 och s z 0.564. Det ger oss konfidensintervallet z ± t 0,025 (4s z / 5 dvs 0,2 ± 0,44 eftersom t 0,025 (4 2,78. Problem 0..9. eller Vi har Derivation ger Av d ln L(θ dθ 0 fås L(θ ( n x je x j/θ n (! n θ 4! j ln L(θ ln ( (! n n d ln L(θ dθ j x j j x j 4n θ + n x θ 2. θ 4n e n x/θ 4n ln θ n x/θ. 4n θ n x θ θ x 2 4. Eftersom ln L(θ då θ 0 eller så följer att extremvärdet är ett maximum och att θ x/4 är ML-skattningen av θ. Problem 0..0. Låt X antalet fall i det givna distriktet. X är Bin(0000, 0.000 Po(0000 0.000 Po( eftersom p 0.000 0. så Poisson-approximation är tillåten. a ( P (X 6 P (X 5 e 0 0! +! + 2 2! +! + 4 4! + 5 5.9 0 4. 5! Detta kan också erhållas ur en Tabell i Formelsamlingen. b Låt N antalet distrikt med 6 eller fler fall. Vi ser att N är Bin (800, P (X 6 Bin(800, 5.9 0 4 Po(800 5.9 0 4 Po(0.472 där Poisson-approximationen är tillåten ty 5.9 0 4 0.. Alltså får vi P (N P (N 0 0.4720 e 0.472 0.76 0! Slutsatsen är alltså att om forskaren valt ut distriktet på förhand (kanske därför att han misstänker miljöpåverkan just där så är de 6 fallen oroande många. Om han i stället valt ut distriktet just för att det var speciellt många fall där, så är det inte alls uppseendeväckande många fall just i det distriktet.
5 Problem 0... a X och Y är N (m, σ 2 vilket ger att X Y är N (m, 2 σ 2. Således 0.99 P ( X Y < r P ( r < X Y < r Φ ( r 0.0 2 ( r Φ 0.0 2 2Φ ( r 0.0 2 Alltså är Φ(r/(0. 2 0.995 dvs r λ 0.005 0.0 2 och tabell 2 ger r 2.58 0.0 2 0.6. Problem 0..2. a Ett konfidensintervall för väntevärdet µ + fås av x ± t 0.025 (0 s/ 0. Man erhåller xi x 0 0.94 och s2 ( x 2 9 i 0 x 2 0.260 t 0.025 (9 2.26. Detta ger intervallet 0.94 ± 0.65. För att få ett konfidensintervall för µ måste vi dra bort det systematiska felet 2. Ett 95 % konfidensintervall för µ ges därför av 8.94 ± 0.65 b Ett 95 % konfidensintervalls bredd vid n observationer är 2 λ 0.025 σ 0 / n om σ 0 är den kända standardavvikelsen. Villkoret ger då att 2.9600 0.5/ n 0.2. Härur löses lätt n ut och vi erhåller n 2 2.9600 2 0.5 2 /0.2 2 96. Problem 0... a Testkvot F obs 2.75 0.50.2 < F 0.05(, 8 4.07. Hypotesen ingen skillnad mellan hastigheter kan inte förkastas. b F hast 2.75 2.75 > F 0.05 (, 6 4.76. På samma sätt ser vi att F papper 9.00 > F 0.05 (2, 6 5.4. Det är alltså signifikanta skillnader både mellan hastigheter och mellan papperskvaliteter. Den förväntade skillnaden mellan A och A 2, med sedvanliga beteckningar α α 2, ges av ȳ. ȳ 2. 9 4. Medelfelet för skattningen d(ȳ. ȳ 2. σ + 2/. Ett 95% konfidensintervall för α α 2 blir därför ȳ. ȳ 2. ± t 0.025 (6d(ȳ. ȳ 2. 4.00 ± 2.00 Problem 0..4. a Normalfördelad linjär regression, där torktiden Y i, i, 2,, 0 antages bero linjärt av spädningen x i enligt Y i α + βx i + ɛ i där ɛ i är oberoende normalfördelade med väntevärde 0 och varians σ 2. Vi har 0 i y i 8. + 8.0+ +5.9 72.9 och 0 y2 i 8. 2 + +5.9 2 58.4. Vidare är x 0 och 0 (x i x 2
6 2 (20 2 + 0 2 + 0 2 + 0 2 + 20 2 2000. Vi får också 0 x iy i 0 8. + + 50 5.9 2074. Enligt formelsamlingen blir skattningen av β β 0 x iy i 0 xȳ 0 (x i x 2 2074 0 0 7.29 2000 2000 0.0565 och α ȳ β x 7.29 ( 0.0565 0 8.985 och den skattade linjens ekvation är alltså 8.985 0.0565 x. b Ändringen av torktiden om spädningen ökar med en ml per liter färg blir β och ett 95%-igt konfidensintervall för β blir enligt formelsamlingen Vi skattar σ 2 med s 2 där s 2 Q 0 0 2 8 ( 0 β s ± t 0.025 (0 2 0. (x i x 2 0 (y i ȳ 2 (β 2 (x i x 2 8 ( 0 0 yi 2 0(ȳ 2 (β 2 (x i x 2 ( 58.4 0 7.29 2 ( 0.0565 2 2000 0.6045 8 8 Vi får alltså intervallet 0.0755625. 0.0565 ± 2. 0.0755625 2000 0.0565 ± 0.042. Problem 0..5. Låt X och X 2 vara processtiderna och Y tiden för återställandet, dvs T X +Y +X 2. Då T är en linjärkombination av oberoende normalfördelande variabler så är även T normalfördelad, med E(T E(X + E(Y + E(X 2 200 + 0 + 200 40 och V (T V (X + V (Y + V (X 2 0 2 + 2 + 0 2 209. Alltså gäller T N (40, 209. Detta ger P (T > 445 P ( T 40 209 > 445 40 209 Φ(.04 0.8508 0.5. Problem 0..6. Låt X, X 2..., X n vara de successiva tiderna mellan kundankomster och sätt Y n i X i. Enligt centrala gränsvärdessatsen är då Y approximativt N (n 0, 6 n-fördelad. Att n kunder eller fler anländer under en 8-timmarsperiod är ekvivalent med att summan av de n mellanliggande tiderna är högst 480 minuter. Vi skall alltså beräkna n så att
7 0.0 P (Y 480. Det ger ( 480 0n 0. P (Y 480 Φ 6 n och 480 0n 6 n λ 0.0.28 Sätt u n och vi erhåller 480 0u2 6u.28, dvs andragradsekvationen 0u 2 7.68u 480 0 vilken har lösningen u 0.84 ± 48 + 0.84 2. Minustecknet ingen äkta lösning varför u n 0.84 + 48.475. Vi får alltså n 54(5.6 eftersom n heltal. Problem 0..7. a Vi låter H ett sönderfall och H 2 två sönderfall. Låt vidare X och X 2 vara antalet strömpulser som genereras av första respektive andra sönderfallet. Dessa är alltså oberoende och Poi(-fördelade. Låt Y antalet registrerade strömpulser. Vi söker P (Y 4 och erhåller med hjälp av lagen om total sannolikhet P (Y 4 P (Y 4 H P (H + P (Y 4 H 2 P (H 2 P (X 4 H P (H + P (X + X 2 4 H 2 P (H 2. Notera att X + X 2 är Poi(+Poi(6 och vi får alltså P (Y 4 4 4! e 0. + 64 4! e 6 0.7 0.44. b Vi söker P (H 2 Y 4 och erhåller (Bayes sats P (H 2 Y 4 P (Y 4 H 2P (H 2 P (Y 4 6 4 4! e 6 0.7 0.44 0.6502 Problem 0..8. Parvisa jämförelser. Bilda differenser inom individer (sista-första. Nya data: 2, 4,, 2, 5,, som är utfall av oberoende N (, σ 2 -fördelade stokastiska variabler. ( 2 + 4 + + 2 + 5 + 2 + 5/7 2.4, 7 s2 7 (( 22 + + 2 5 2 /7 5.4. s 2.27. Hypotesen H 0 : 0 testas till exempel med konfidensmetoden. Ett 95 % konfidensintervall för blir s ± t 0.025 (7 7 2.4 ± 2.45 2.27 7 2.4 ± 2.0. 0 tillhör ej intervallet. Alltså kan H 0 förkastas på nivån 5 %. Problem 0..9.
8 Vi ansätter en linjär regressionsmodell med ålder som oberoende variabel x och slagvolymen som den beroende variabeln y. a Beräkningar ger x 45 ȳ 70.4545 i (x i x 2 2750 i (y i ȳ 2 22.727 och i (x i xy i 755. Härav fås att, med sedvanliga beteckningar enligt Formelsamlingen, att β i (x i xy i / i (x i x 2 0.2745, α ȳ 70.4545 och ( s 2 (y i ȳ β 2 (x i x 2 2.827 2 i i Vårt skattade regressionssamband blir alltså y 70.4545 0.2745(x 45. Ett 95% konfidensintervall för β ges av β s ± t 0.025 (9 i (x 0.2745 ± 0.0725 i x 2 Eftersom 0 inte tillhör intervallet förkastas hypotesen att åldern ej skulle ha någon inverkan på slagvolymen, dvs åldern har en signifikant påverkan på slagvolymen. c Ett 95 % konfidensintervall ges av α + β (50 x2 (50 45 ± t 0.025 (9s + i (x 69.08 ±.20 i x 2 Problem 0..20. Vi får Likelihoodfunktionen L(θ f X,X 2,,X n (x, x 2,, x n f X (x f X2 (x 2 f Xn (x n θ n (x x 2... x n θ som ger Vi får ln L(θ n ln(θ + (θ d ln(l(θ dθ och d ln(l(θ/dθ 0 ger ML-skattningen n ln(x j. j n n θ + ln(x j j Problem 0..2. θ n j n ln(x j
9 Två oberoende stickprov med N (m A, σ 2 - respektive N (m B, σ 2 -fördelade observationer. Ett 95%-igt konfidensintervall för m A m B blir x ȳ ± t 0.025 (2 + 2 2s 2 + 2 där x (8 + 84 + + 8/2 977/2 8.42 och ȳ (76 + 78 + + 79/2 949/2 79.08. Vidare får vi ( s 2 x 2 x 2 i 2 ( x 2 (79577 9772 2.97 2.9924 2 2 som ger i ( s 2 y 2 yi 2 2 (ȳ 2 2 i s 2 s2 x + s 2 y + (7509 9492 42.97 2.447, s.86.905 och vi får intervallet till 8.42 79.08 ± 2.07.86 2/2 2.4 ±.57 (0.77,.9. b Vi tar H 0 : m A m B och H : m A m B. Vi förkastar H 0 på signifikansnivån 5% eftersom konfidensintervallet i a-delen inte innehåller 0. Slutsatsen är alltså att oktanhalterna är olika! Problem 0..22. a Täthetsfunktionen är derivatan av fördelningsfunktionen, f X (x F X (x. Denna är F X (x P (X x P (X > x e a xc varför f X (x F X(x ac x c e a xc, x 0 b Kalla observationerna x, x,..., x n. Likelihoodfunktionen är L(x, x 2,..., x n ; a n f X (x i i n (2a x i e a x2 i 2 n a n e a n i x2 i i Vi skall beräkna det värde på a som maximerar L. Det är lättare att då betrakta logaritmen av L som har maximum för samma a-värde. Logaritmen blir ln(l n ln(2 + n ln(a a n i x2 i + ln( n i x i. Derivera logaritmen: d ln(l da n a n vilken är 0 för a a n n. Detta värde ger maximum (se teckenväxling och är alltså i x2 i ML-skattningen. Med n 5 och observationsvärdena insatta får a 2.90. c Vi har 0. P (X L 0 P (X > L 0 e a Lc 0 vilket ger e a L c 0 0.9 och således a L c 0 ln(0.9. Vi löser ut L 0 ( ln(0.9/a /c. Vi skattar a med a 2.90, och eftersom c 2 erhåller vi skattningen L 0 0.9 i x 2 i n i x i
0 Problem 0..2. Låt X,..., X n beskriva totala effekten levererad av n solceller av typ A. Den totala effekten X + +X n är enligt CGS approximativt normalfördelad och således även effekten per krona, W A 000(X + + X 00 00 75 är approx N (20, 0.8 2 [W/kr] På samma sätt beskrivs totala effekten/krona i W/kr för 49 solceller av typ B av en approximativt N (22,.2 2 -fördelad stokastisk variabel W B. Nu är P (W B > W A P (W B W A > 0 P ( W B W A (22r 20.22 + 0.8 2 > Problem 0..24. Φ(.9 Φ(.9 0.92. 0 (22 20.22 + 0.8 2 a Låt X beskriva antalet rätta svar studenten får. Då är X Bin(0, 0.25-fördelad och p P (Godkänd P (X 6 P (X 5 {Tabell 6} 0.98027 0.097. b Låt Y beskriva antalet gånger studenten tenterar. Då är Y Geom(p-fördelad och q P (Y 6 ( p 5 0.905. c Av n 20 studenter med slumpmässig svarsstrategi låt Z vara antalet som klarat tentamen på högst 5 försök. Då är Z Bin(n, q-fördelad eller approximativt N (n( q, nq( q N (.4,.2 2 eftersom nq( q 0. > 0. Alltså är Problem 0..25. P (Z < 20 P ( X.4.2 < 20.4 Φ(2.69 0.996..2 Låt R beteckna händelsen att det regnar. a Lagen om total sannolikhet ger P (R P (R A P(A+P (R B P(B+P(R C P(C 0.05 0.2+0.4 0.5+0.9 0. 0.48. b Bayes sats ger P (B R P (R B P (B P (R 0.4 0.5 0.48 0.42. Problem 0..26.
a E(Y E(5 + 2X + X 2 X 5 + 2 E(X + E(X 2 E(X 5 + 2 2 + 8 8 9. b V (Y V (5+2X +X 2 X {variablerna oberoende} 2 2 V (X + 2 V (X 2 +( 2 V (X 4 6 + 9 + 9 82, vilket ger D(Y 82 9.06. c Variabeln Y är normalfördelad eftersom den är en linjärkombination av oberoende normalfördelade variabler. Vi får ( Y 9 P (Y > 8 P (Y 8 P 8 9 82 82 Φ( / 82 Φ(/ 82 Φ(0. 0.54.