Kurskod: TAMS24 (Statistisk teori) / Provkod: TEN 205-0-23 (kl. 4-8) Examinator/Examiner: Xiangfeng Yang (Tel: 070 2234765). Please answer in ENGLISH if you can. a. You are permitted to bring: a calculator; formel -och tabellsamling i matematisk statistik (from MAI); TAMS24: Notations and Formulas (by Xiangfeng Yang) b. Scores rating: 8- points giving rate 3;.5-4.5 points giving rate 4; 5-8 points giving rate 5.. (3 points) English English Version Independent samples of very pure iron made by two different methods, A and B, gave the following melting points: A 493 59 58 57 52 54 489 508 494 B 509 494 52 483 507 49 Assume that we have independent observations x,..., x 9 from N(µ, σ) for A, and y,..., y 6 from N(µ 2, σ) for B. Construct a (two-sided) 95% confidence interval for µ µ 2. Solution. The confidence interval is I µ µ 2 = ( x ȳ) t α/2 (n + n 2 2) s + n n 2 where and Therefore, x = 507., ȳ = 499.33, n = 9, n 2 = 6, t α/2 (n + n 2 2) = 2.6 s 2 = (n )s 2 + (n 2 )s 2 2 n + n 2 2 = (9 ).92 + (6 ).6 2 9 + 6 2 I µ µ 2 = ( x ȳ) t α/2 (n + n 2 2) s = 32.88 + 672.8 3 = 38.9, so s =.8. n + n 2 = 7.8 3.3 = ( 5.5, 2.). 2. (3 points) English During the study of accuracy, one often makes measurements on objects with different methods. Then one studies the difference for each pair of measurements and then obtains observations y i of independent random variables Y i N(0, σ 2), where σ is the standard deviation of one measurement error. Let y,..., y n be those observed values. Find the Maximum-Likelihood estimate of σ based on y,..., y n, and check if the corresponding σ 2 -estimator is unbiased. Solution. Part : The likelihood function is L(σ) = n e 2π 2σ y 2 i 2( 2σ) 2 = n e y 2π 2σ 2 i 4σ 2 = ( ) n σ n e n 2π 2 y 2 i 4σ 2. Thus the logarithmic likelihood function is ( ) ln L(σ) = n ln 2π 2 n ln(σ) 4σ 2 yi 2. Page /5
The first derivative gives 0 = ln L(σ) = n σ + 2σ 3 y 2 i σ 2 = yi 2 σ = yi 2. The second derivative test shows that such σ is indeed a maximal value of ln L(σ). Therefore, the Maximum-Likelihood estimate of σ is ˆσ ML = yi 2. Part 2: Is ˆσ 2 = n y2 i unbiased? So, it is unbiased. E(ˆσ 2 ) = E( Y 2 i ) = E(Y 2 i ) = V (Y i ) = 2σ 2 = σ2 = σ 2. 3. (3 points) English Let the random variables X, X 2 and X 3 be independent and N(0, 2), where 2 is the standard deviation. Consider (3.). (p) Find the mean E(Y ) and the variance V (Y ). (3.2). (2p) Find P (Y > Y 2 ). Solution. (3.). Y = 3 (X + X 2 + X 3 ), Y 2 = 3X + X 2 2X 3. E(Y ) = E 3 (X + X 2 + X 3 ) = 3 E(X + X 2 + X 3 ) = 3 (E(X ) + E(X 2 ) + E(X 3 )) = (0 + 0 + 0) = 0. 3 V (Y ) = V 3 (X + X 2 + X 3 ) = 3 2 V (X + X 2 + X 3 ) = 3 2 (V (X ) + V (X 2 ) + V (X 3 )) = 3 2 (22 + 2 2 + 2 2 ) = 2/9 = 4/3. (3.2). P (Y > Y 2 ) = P ( 3 (X + X 2 + X 3 ) > 3X + X 2 2X 3 ) = P (X + X 2 + X 3 > 9X + 3X 2 6X 3 ) = P (8X + 2X 2 7X 3 < 0) = (similarly as in (3.)) = P (N(30, 2.6) < 0) = P (N(0, ) < 30/2.6) = P (N(0, ) <.39) = 0.977 = 0.0823. 4. (3 points) English One way to measure the radon concentration in the indoor air is to hang up the film which is sensitive to alpha particles. When the film is met by a particle, then in the film a hole Y will occur which is a Poisson random variable with a mean proportional to the randon concentration λ. Let y = 27 be an observation of Y P o(kλ), where k = 0. is the current measurement situation. (4.). (p) With a significance level 5%, reject H 0? H 0 : λ = 200 Bq/m 3 mot H : λ > 200 Bq/m 3 (4.2). (2p) Find the power for the test when the real λ = 250. Page 2/5
Solution. (4.). In this case, the Normal approximation gives (the help variable) Y P o(kλ) N(kλ, kλ) Y kλ kλ N(0, ). Thus we know T S = y kλ 0 27 0. 200 = =.56; C = (λ α, + ) = (.645, + ). kλ0 0. 200 Since T S / C, don t reject H 0. (4.2). P ower = P (reject H 0 when H 0 is false and λ = 250) = P (T S C, λ = 250) = P (Y >.645 20 + 20, λ = 250) = P ( Y kλ kλ = P (N(0, ) >.645 20 + 20 0. 250 0. 250 ) = 0.32. >.645 20 + 20 kλ kλ, λ = 250) 5. (3 points) English One has studied the resistance of cylinders made of a cement-like material based on fly ash. Tests have been conducted for various concentrations of ammonium phosphate. Analyses were carried out for two different models: Model : Y = β 0 + β x + β 2 x 2 + ε, ε N(0, σ), Model 2: Z = β 0 + β x + β 2 ln(x + ) + ε, ε N(0, σ), Z = ln(y ). Matlab analysis for Model is: Estimated regression line y = 243 + 383x 76.7x 2 0 242.89 42.98 382.67 40.43 2-76.66 7.762 Degrees of freedom Sum of squares REGR 2 658230 RES 5 0206 TOT 7 759436 Matlab analysis for Model 2 is: Estimated regression line ln(y ) = 7.09 0.30x + 0.883 ln(x + ) 0 7.0856 0.0879-0.30068 0.0840 2 0.8829 0.0595 Degrees of freedom Sum of squares REGR 2 0.32744 RES 5 0.0700 TOT 7 0.34444 0.350 0.480 0.5706 (X X) = 0.480 0.29885 0.8640. 0.5706 0.8640 2.3820 (5.). (p) Why does Model 2 work better than Model? (5.2). (p) Is the second variable ln(x + ) really needed in Model 2? Answer this with the help of an appropriate test or confidence interval with a level 5%. (5.3). (p) Construct a 95% confidence interval for the mean µ 0 = E(Z) in Model 2 when x = 2. Solution. (5.). We compare the R 2 for Model and Model 2. Model : R 2 = SS R SS T OT = 658230 759436 = 0.867; Model 2: R 2 = SS R SS T OT = 0.32744 0.34444 = 0.95. R 2 in Model 2 is larger than R 2 in Model, thus Model 2 works better than Model. Page 3/5
(5.2). Method : We can construct a confidence interval for β 2 as follows I β2 = ˆβ 2 t α/2 (n k ) s h 22 = ˆβ 2 t α/2 (n k ) d( ˆβ 2 ) = 0.8829 2.3 0.0595 = (0.77, 0.99). Since 0 / I β2, we think β 2 0. Namely, the second variable ln(x + ) is really needed in Model 2. Method 2 : We can also solve this problem using Hypothesis test as follows: Then we can easily find T S = ˆβ 2 0 d( ˆβ 2 ) H 0 : β 2 = 0, H : β 2 0. = 0.8829/0.0595 = 7, C = (, 2.3) (2.3, + ). Since T S C, reject H 0. So we think β 2 0, namely, the second variable ln(x + ) is really needed in Model 2. (5.3). In this case, x = (, 2, ln(3)), and the confidence interval is I µ0 = ˆµ t α/2 (n k ) s x (X X) x, where Therefore, ˆµ = x ˆβ = 7.4538, s 2 = SS E n k = 0.0700 = 0.0033 s = 0.03366, 5 x (X X) x = 0.32. I µ0 = ˆµ t α/2 (n k ) s x (X X) x = (7.428, 7.480). 6. (3 points) English Three suppliers provide a factory with details of the production of a certain product. At delivery, the control selects randomly selected units from each supplier and classify them as flawless (A), slightly defective (B) and inoperable (C). Latest results in terms of the number of devices found in different classes were: suppliers Class A Class B Class C 89 3 8 2 75 8 7 3 86 5 9 Based on these data, can we know that if there are quality differences between the three suppliers? Answer this using an appropriate test with a significance level 5%. Solution. H 0 : there are NOT quality differences between the three suppliers; H : there are quality differences between the three suppliers;. help variable is : k r (N ij np ij) 2 j= np ij χ 2 ((r )(k )); TS = k r (N ij np ij) 2 j= np ij ; C = ( χ 2 α((r )(k )), + ), Page 4/5
where r = 3, k = 3, where Based on these, we get N ij can be obtained directly from the table, for example N = 89, N 2 = 3,..., N 33 = 3; p = 89 + 3 + 8, p 2 = 89 + 75 + 86 q = T S = 8.46, p ij = p i q j, 75 + 8 + 7, q 2 = 3 + 8 + 5 C = (9.49, + )., p 3 = 86 + 5 + 9 ;, q 3 = 8 + 7 + 9. Since T S / C, don t reject H 0. Namely, there may not be quality differences between the three suppliers. Page 5/5
. (3 poäng) Svenska Svensk Version Oberoende stickprov av mycket rent järn berett med olika metoder, A och B, gav följande smältpunkter: A 493 59 58 57 52 54 489 508 494 B 509 494 52 483 507 49 Anta att vi har oberoende observationer x,..., x 9 från N(µ, σ) för A, och y,..., y 6 från N(µ 2, σ) för B. Konstruera ett (två-sidigt) 95% konfidensintervall för µ µ 2. 2. (3 poäng) Svenska Ofta då man studerar mätnoggrannhet gör man dubblemätningar på föremål med olika egenskaper. Seden bildar man för varje par av mätningar differensen mellan mätvärdena och får då observationer y i av oberoende stokastiska variabler Y i N(0, σ 2), där σ är standardavvikelsen för ett mätfel. Låt y,..., y n vara sådana observerad värden. Härled Maximum-Likelihood skattningen av σ baserad på y,..., y n och undersök om motsvarande σ 2 -skattning är väntevärdesriktig. 3. (3 poäng) Svenska De stokastiska variablerna X, X 2 och X 3 är oberoende och N(0, 2), där 2 är standardavvikelsen. Betrakta (3.). (p) Bestäm väntevärdet E(Y ) och variansen V (Y ). (3.2). (2p) Beräkna P (Y > Y 2 ). 4. (3 poäng) Svenska Y = 3 (X + X 2 + X 3 ), Y 2 = 3X + X 2 2X 3. Ett sätt att mätta randonkoncentrationen i inomhusluft är att hänga upp film känslig för alfapartiklar. När filmen träffas av en partikel uppstår efter framkallning ett hål Y i en film är Poissonfördelat med ett väntevärde som är proportionellt mot randonkoncentrationen λ. Låt y = 27 vara en observation av Y P o(kλ), där k = 0. för den aktuella mätsituationen. (4.). (p) Med signifikansnivå 5%, förkasta H 0? (4.2). (2p) Bestäm styrkan för testet om λ = 250. 5. (3 poäng) Svenska H 0 : λ = 200 Bq/m 3 mot H : λ > 200 Bq/m 3 Man har studerat hållfastheten hos cylindrar tillverkade av ett cementliknande material baserat på flygaska. Försök har genomförts för olika halter av ammoniumfosfat. Analyser har genomförts för två olika modeller: Modell : Y = β 0 + β x + β 2 x 2 + ε, ε N(0, σ), Modell 2: Z = β 0 + β x + β 2 ln(x + ) + ε, ε N(0, σ), Z = ln(y ). Matlabanalys för Modell är: Skattad regressionslinje y = 243 + 383x 76.7x 2 0 242.89 42.98 382.67 40.43 2-76.66 7.762 Frihetsgrader Kvadratsumma REGR 2 658230 RES 5 0206 TOT 7 759436 Page /2
Matlabanalys för Modell 2 är: Skattad regressionslinje ln(y ) = 7.09 0.30x + 0.883 ln(x + ) 0 7.0856 0.0879-0.30068 0.0840 2 0.8829 0.0595 Frihetsgrader Kvadratsumma REGR 2 0.32744 RES 5 0.0700 TOT 7 0.34444 0.350 0.480 0.5706 (X X) = 0.480 0.29885 0.8640. 0.5706 0.8640 2.3820 (5.). (p) Hur framgår det av analyserna att Modell 2 fungerar bättre än Modell? (5.2). (p) Behövs den andra förklaringsvariabeln ln(x + ) i Modell 2? Motivera ditt svar med hjälp av lämpliga test eller konfidensintervall med en nivå 5%. (5.3). (p) Konstruera utgående från analysen för Modell 2 ett 95% konfidensintervall för väntevärdet µ 0 = E(Z) då x = 2. 6. (3 poäng) Svenska Tre leverantörer förser en fabrik med detaljer för tilverkning av en viss produkt. Vid leveranskontrollen väljer man slumpmässigt ut enheter från varje leverantör och klasar dem som felfria (A), något defekta (B) och oanvändbara (C). Resultatet vid den senaste kontrollen vad gäller antalet funna enheter i olika klasser blev: Leverantör Klass A Klass B Klass C 89 3 8 2 75 8 7 3 86 5 9 Kan vi med utgångspunkt från dessa data påstå att det finns kvalitetsskillnader mellan de tre leverantörerna? Genomför ett lämpligt test på signifikansnivå 5%. Page 2/2