Kurskod: TAMS38 - Provkod: TEN1 TAMS38 Försöksplanering och biostatistik, 4 p / 6 hp Tentamen tisdagen den 12 januari 2016 kl 14 18. Hjälpmedel: Formelsamling i matematisk statistik utgiven av matematiska institutionen samt miniräknare med tömda minnen. Inga anteckningar i formelsamlingen är tillåtet. Betygsgränser: 7-9 poäng ger betyg 3, 9.5-12 ger betyg 4 och 12.5-15 ger betyg 5. Examinator: Martin Singull Resultatet meddelas normalt via LADOK inom 12 arbetsdagar. Tydliga svar och motiveringar krävs till varje uppgift. 1) Vi vill undersöka storleken på skörden av olika tomater (två sorter: Körsbärs/Gul oval) och hur den beror på planteringstid (tre nivåer: tidig/medeltidig/sen). Tid Tidig Medeltidig Sen Körsbärs 14.3 18.1 17.6 14.5 17.6 18.2 11.5 17.1 18.9 13.6 17.6 18.2 Gul oval 12.6 10.5 15.7 11.2 12.8 17.5 11.0 8.3 16.7 12.1 9.1 16.6 En analys av datamaterialet har genomförts med hjälp av Minitab. Analysis of Variance for y Source DF SS MS Sort 1 77,400 77,400 Tid 2 99,872 49,936 Sort*Tid 2 44,106 22,053 Error 18 21,998 1,222 Total 23 243,376 S = 1,10548 R-Sq = 90,96% R-Sq(adj) = 88,45% Means Sort N y Tid N y 1 12 16,433 1 8 12,600 2 12 12,842 2 8 13,888 3 8 17,425 1
Sort Tid N y 1 1 4 13,475 1 2 4 17,600 1 3 4 18,225 2 1 4 11,725 2 2 4 10,175 2 3 4 16,625 a) Ställ upp modellen. Kom ihåg skriva alla bivillikoren. b) Undersök med lämpligt test på nivån 0.05 om det finns något samspel mellan sort och planteringstid. Välja för att göra uppgift c ) eller c ) (ej båda). c ) Vilken planteringstid är bäst för respektive tomatsort? Motivera ditt svar med lämpliga konfidensintervall med simultan konfidensgrad cirka 90%. Vi vill ha stora värden på skörden. (2p) c ) Vilken kombination av planteringstid och tomatsort är bäst? Motivera ditt svar med lämpliga konfidensintervall med simultan konfidensgrad cirka 90%. Vi vill ha stora värden på skörden. 2) Smittskyddsinstitutet, Livsmedelsverket och Svenskt Vatten har tillsammans tagit fram rekommendationer för att minska riskerna för parasitsmitta efter utbrottet i Östersund. Om inte reningsverken är utrustade med rätt sorts filter kan Cryptosporidiumparasiten passera ut med avloppsvattnet i det som ska bli dricksvatten. Man vill därför undersöka hur tre olika reningsmetoder R i, i = 1, 2, 3, av dricksvatten fungerar. Följande mätningar har gjorts. y ij ȳ i s i R 1 84.7 83.8 87.8 87.2 84.9 87.1 86.2 85.96 1.509 R 2 90.7 87.5 90.0 89.2 90.3 89.54 1.266 R 3 94.5 93.4 92.8 90.2 95.2 94.3 93.40 1.781 Modell: Behandling i ger observationer y ij där de sv. Y ij N(µ i, σ i ) och är oberoende. a) Pröva med lämpliga test vart och ett på nivån 0.01 om standardavvikelserna är lika. Det räcker att du skriver ut ett av testen som låt dig dra general slutsats. b) Anta att data är inte normalfördelad. Kolla med hjälp av ett lämpligt ickeparameteriskt test om det finns skillnader i de olika reningsmetoderna. Ange också vilken hypotes som du testar. 3) I en studie vill vi undersöka bakterietillväxten i en viss sorts livsmedel. Vi har därför varierat sex faktorer A, B, C, D, E och F och sedan genomfört ett 2 6 2 -försök, där vi har applicerat faktorn E och F enligt E=ABC och F=BCD. Efter försöket har vi mätt upp följande bakteriehalter: 2
(1) 167 df 171 ae 145 adef 135 bef 184 bde 178 abf 132 abd 189 cef 234 cde 197 acf 142 acd 179 bc 227 bcdf 198 abce 171 abcdef 177 Vi analyser först datamaterialet enligt en modell med sexton tänkbara parametrar. a) Vilka är de tre viktigaste effekterna? Ange de intressanta parameterskattningarna och samtliga överlagringar på dessa. Minitabanalys 1. MTB > copy c1-c16 m1 MTB > copy c17 m2 MTB > trans m1 m3 MTB > mult m3 m2 m4 MTB > copy m4 c18 MTB > let c19 = c18/16 MTB > set c20 DATA> 1:16 DATA> end MTB > sort c19 c20 c21 c22; SUBC> by c19. MTB > let c23 = 16*c21**2 MTB > print c21-c23 Data Display Row C21 C22 C23 1-17,875 2 5112 2-7,250 16 841 3-5,500 6 484 4-5,000 15 400 5-4,250 13 289 6-2,750 7 121 7 1,000 8 16 8 1,375 9 30 9 2,125 11 72 10 2,375 12 90 11 3,125 4 156 12 3,750 14 225 13 5,375 3 462 14 9,875 10 1560 15 14,000 5 3136 16 176,625 1 499142 3
MTB > copy c21 c24; SUBC> omit 16. MTB > nscores c24 c25 MTB > plot c25*c24 b) Givet resultatet i a) görs ytterligare en Minitabanalys. Minitabanalys 2. MTB > ANOVA Y = A D C; SUBC> Means A D C. ANOVA: Y versus A; D; C Analysis of Variance for Y Source DF SS MS F P A 1 5112,3 5112,3 17,81 0,001 D 1 30,3 30,3 0,11 0,752 A*D 1 1560,3 1560,3 5,44 0,040 C 1 3136,0 3136,0 10,93 0,007 Error 11 3157,0 287,0 Total 15 12995,8 S = 16,9411 R-Sq = 75,71% R-Sq(adj) = 66,87% Means A N Y D N Y C N Y -1 8 194,50-1 8 175,25-1 8 162,63 1 8 158,75 1 8 178,00 1 8 190,63 A D N Y -1-1 4 203,00-1 1 4 186,00 1-1 4 147,50 1 1 4 170,00 Vilken modell har använts i den andra Minitabanalysen? Kan man med hjälp av den andra analysen hitta en sämsta (stora värden) kombination av faktorerna i modellen? Motivera ditt svar med hjälp av konfidensintervall med den simultana konfidensgraden minst 88%. (2p) 4
4) Mätningar har genomförts enligt ett 2 2 -försök med en mätning för varje nivå kombination och fyra mätningar i centrumpunkten. Faktorer Låg nivå (-1) Hög nivå (1) tjocklek, A 30 60 grad av transparens, B 100 200 Nivåerna har som vanligt kodats -1 och 1. För responsvariabeln har man fått följande observationer och följande Minitabanalys. Factorial Fit: C7 versus A; B Original Coded Response A B A B y Factorial 30 100-1 -1 33 30 200-1 1 28 60 100 1-1 27 60 200 1 1 52 Centre 45 150 0 0 35 45 150 0 0 37 45 150 0 0 34 45 150 0 0 39 Estimated Effects and Coefficients for C7 (coded units) Term Effect Coef SE Coef Constant 35,000 1,109 A 9,000 4,500 1,109 B 10,000 5,000 1,109 A*B 15,000 7,500 1,109 Ct Pt 1,250 1,568 Analysis of Variance for C7 (coded units) Source DF Seq SS Adj SS Adj MS Main Effects 2 181,000 181,000 90,500 2-Way Interactions 1 225,000 225,000 225,000 Curvature 1 3,125 3,125 3,125 Residual Error 3 14,750 14,750 4,917 Pure Error 3 14,750 14,750 4,917 Total 7 423,875 a) Undersök med hjälp av ett lämpligt test eller konfidensintervall på nivån 0.05 om responsytan i det aktuella området är krökt. 5
b) På grund av resultatet i a) gör vi en vanlig linjär regression och låter A x 1 och B x 2. Vi får då y = 35.6 + 4.5x 1 + 5.0x 2. Vi vill ha höga värden och ska stega i den brantaste riktningen. Vilken blir den första punkten i stegningen från (0, 0) om nästa värde på x 1 ska vara 0.5? Svaret: (0, 0) (0.5,...) Vilken punkt blir det i de okodade värdena? 5) Under äggindustrins högsäsonger jul, nyår och påsk ökar försäljningen av ägg med cirka 25% i Sverige. Ägg innehåller olika vitaminer såsom A, D, B2, B12 och folat och en hel del andra nyttiga ämnen som protein och selen. För att jämföra ägg från olika hönsgårdar valde man ut slumpmässigt fyra gårdar i Östergötland och undersökte tio ägg från varje gård. Man bestämde sedan att totalt mått på hur mycket nyttigheter varje ägg innehöll och fick följande resultat: där Gård, i 1 2 3 4 193.5 229.1 261.3 216.7 197.3 212.5 266.2 206.2 205.2 216.3 259.4 237.2 215.2 212.2 252.2 208.5 y ij 224.5 198.3 262.5 211.1 191.8 235.0 243.1 216.8 177.9 210.3 221.1 220.6 180.9 215.5 236.2 217.0 185.2 190.1 267.1 192.0 187.0 229.4 202.1 206.1 ȳ i 195.85 214.87 247.12 213.22 s i 15.07 13.92 21.65 11.77 SS T REAT = 13710.2 och SS E = 9249.6. a) Ställ upp en varianskomponent modell och svara med ett mening varför väljar vi varianskomponenet model, ej enfaktormodell (One-Way ANOVA). b) Undersök med F-test på α = 5% om det finns signifikant skillnader mellan ägg från olika hönsgårdar. Ange också vilken hypotes som du testar. 6
Kurskod: TAMS38 - Provkod: TEN1 TAMS38 Experimental Design and Biostatistics, 4 p / 6 hp Examination on 12 January 2016 kl 14 18. The collection of the formulas in mathematical statistics prepared by Department of Mathematics LiU and calculator with empty memory are allowed on the exam. No extra notes in the formula collection is allowed. Score limits: 7-9 points gives 3, 9.5-12 gives 4 and 12.5-15 gives 5. Examinator: Martin Singull The result will be normally published via LADOK within 12 working days. Clear answers and justifications are required for each task. 1) We want to examine the size of the harvest of various tomatoes types (two varieties: Cherry/yellow oval) and how it depends on the planting time (three levels: early/medium early/late). Time early medium early late cherry 14.3 18.1 17.6 14.5 17.6 18.2 11.5 17.1 18.9 13.6 17.6 18.2 yellow oval 12.6 10.5 15.7 11.2 12.8 17.5 11.0 8.3 16.7 12.1 9.1 16.6 An analysis of data material have been done using Minitab. Analysis of Variance for y Source DF SS MS Sort 1 77,400 77,400 Time 2 99,872 49,936 Sort*Time 2 44,106 22,053 Error 18 21,998 1,222 Total 23 243,376 S = 1,10548 R-Sq = 90,96% R-Sq(adj) = 88,45% Means Sort N y Time N y 1 12 16,433 1 8 12,600 2 12 12,842 2 8 13,888 3 8 17,425 7
Sort Time N y 1 1 4 13,475 1 2 4 17,600 1 3 4 18,225 2 1 4 11,725 2 2 4 10,175 2 3 4 16,625 a) Write the model together with all constrains. b) Examine with the appropriate test on the level 0.05 if there is any interaction between sort of tomatoes and planting time. Choosing to do one of the tasks: c ) or c ) (not both). c ) What planting time is the best for each tomato sort? Justify your answer with appropriate confidence intervals with the simultaneous confidence level about 90%. We want to have large values of the harvest. (2p) c ) Which combination of planting time and tomato sort is the best? Justify your answer with appropriate confidence intervals with the simultaneous confidence level about 90%. We want to have large values of the harvest. 2) Infectious Diseases Institute, National Food Administration and the Swedish Water Authority have jointly developed recommendations to reduce the risks of parasitic infection after the outbreak in Östersund. Unless plants are equipped with the right kind of filter can parasitic pass out with the effluent in what will become drinking water. Therefore one wishes to investigate how three different purification methods R i, i = 1, 2, 3, of drinking water works. The following measurements were made. y ij ȳ i s i R 1 84.7 83.8 87.8 87.2 84.9 87.1 86.2 85.96 1.509 R 2 90.7 87.5 90.0 89.2 90.3 89.54 1.266 R 3 94.5 93.4 92.8 90.2 95.2 94.3 93.40 1.781 Model: Treatment i gives observations y ij where the random variables Y ij N(µ i, σ i ) and are independent. a) Investigate using appropriate test each at the level 0.01 if the standard deviations are equal. It is enough that you write one of the tests that let you derive proper general conclusion. b) Assume that data are not normally distributed. Check with the help of a suitable non-parametric test whether there are differences in the various treatment methods. Indicate which hypothesis you are testing. 3) In a study we want to investigate the bacterial growth in a certain kind of food. We have therefore fluctuated six factors A, B, C, D, E and F, and then used 2 6 2 - design, where we have applied the factor E and F in form E=ABC and F=BCD. After the experiment, we measured the following levels of bacteria: 8
(1) 167 df 171 ae 145 adef 135 bef 184 bde 178 abf 132 abd 189 cef 234 cde 197 acf 142 acd 179 bc 227 bcdf 198 abce 171 abcdef 177 We first analyze the data according to a model with sixteen possible parameters. a) What are the three most significant effects? Give the corresponding parameter estimates and all their aliases. Minitab analysis 1. MTB > copy c1-c16 m1 MTB > copy c17 m2 MTB > trans m1 m3 MTB > mult m3 m2 m4 MTB > copy m4 c18 MTB > let c19 = c18/16 MTB > set c20 DATA> 1:16 DATA> end MTB > sort c19 c20 c21 c22; SUBC> by c19. MTB > let c23 = 16*c21**2 MTB > print c21-c23 Data Display Row C21 C22 C23 1-17,875 2 5112 2-7,250 16 841 3-5,500 6 484 4-5,000 15 400 5-4,250 13 289 6-2,750 7 121 7 1,000 8 16 8 1,375 9 30 9 2,125 11 72 10 2,375 12 90 11 3,125 4 156 12 3,750 14 225 13 5,375 3 462 14 9,875 10 1560 15 14,000 5 3136 16 176,625 1 499142 9
MTB > copy c21 c24; SUBC> omit 16. MTB > nscores c24 c25 MTB > plot c25*c24 b) Given the result in a) the another Minitab analysis was made. Minitab analysis 2. MTB > ANOVA Y = A D C; SUBC> Means A D C. ANOVA: Y versus A; D; C Analysis of Variance for Y Source DF SS MS F P A 1 5112,3 5112,3 17,81 0,001 D 1 30,3 30,3 0,11 0,752 A*D 1 1560,3 1560,3 5,44 0,040 C 1 3136,0 3136,0 10,93 0,007 Error 11 3157,0 287,0 Total 15 12995,8 S = 16,9411 R-Sq = 75,71% R-Sq(adj) = 66,87% Means A N Y D N Y C N Y -1 8 194,50-1 8 175,25-1 8 162,63 1 8 158,75 1 8 178,00 1 8 190,63 A D N Y -1-1 4 203,00-1 1 4 186,00 1-1 4 147,50 1 1 4 170,00 Which model has been used in the second Minitab analysis? Can one use the second analysis to find a worst (great value) combination of factors in the model? Justify your answer using confidence intervals with the simultaneous confidence level of at least 88%. (2p) 10
4) Measurements have been carried out according to a 2 2 -design with the a measurement for each level combination and with four measurements at center point. Faktors Low level (-1) High level (1) thickness, A 30 60 transparency level, B 100 200 Levels are as usually encoded -1 and 1. For the response variable one have obtained the following observations and the following Minitab analysis. Factorial Fit: C7 versus A; B Original Coded Response A B A B y Factorial 30 100-1 -1 33 30 200-1 1 28 60 100 1-1 27 60 200 1 1 52 Centre 45 150 0 0 35 45 150 0 0 37 45 150 0 0 34 45 150 0 0 39 Estimated Effects and Coefficients for C7 (coded units) Term Effect Coef SE Coef Constant 35,000 1,109 A 9,000 4,500 1,109 B 10,000 5,000 1,109 A*B 15,000 7,500 1,109 Ct Pt 1,250 1,568 Analysis of Variance for C7 (coded units) Source DF Seq SS Adj SS Adj MS Main Effects 2 181,000 181,000 90,500 2-Way Interactions 1 225,000 225,000 225,000 Curvature 1 3,125 3,125 3,125 Residual Error 3 14,750 14,750 4,917 Pure Error 3 14,750 14,750 4,917 Total 7 423,875 a) Examine with the help of a suitable test or confidence interval at level 0.05 if response surface in the considered area is curved. 11
b) Because of the result in a) we do a standard linear regression and let A x 1 and B x 2. Hence, we obtain y = 35.6 + 4.5x 1 + 5.0x 2. We want to have high values of response and hence will look at move (step) in the steepest direction. What will be the new central point that we go to from (0, 0) if the next value of x 1 is 0.5? Answer: (0, 0) (0.5,...) Translate the coded point into uncoded values. 5) During the egg industry peak periods Christmas, New Year and Easter sales of eggs in Sweden will increase with about 25%. Eggs contain various vitamins such as A, D, B2, B12 and B9 and a lot of other useful substances like protein and selenium. To compare eggs of different poultry farms four farms in Östergötland were chosen at random and ten eggs from each farm were examined. Then, the total measure of vitamins for each egg was determined. We obtained the following results: where Farm, i 1 2 3 4 193.5 229.1 261.3 216.7 197.3 212.5 266.2 206.2 205.2 216.3 259.4 237.2 215.2 212.2 252.2 208.5 y ij 224.5 198.3 262.5 211.1 191.8 235.0 243.1 216.8 177.9 210.3 221.1 220.6 180.9 215.5 236.2 217.0 185.2 190.1 267.1 192.0 187.0 229.4 202.1 206.1 ȳ i 195.85 214.87 247.12 213.22 s i 15.07 13.92 21.65 11.77 SS T REAT = 13710.2 and SS E = 9249.6. a) Write the corresponding variance component model and answer with one sentence why we the variance component model have been chosen instead of One-Way ANOVA. b) Examine with the F-test on α = 5% if there are significant differences between eggs of different poultry farms. Remember to indicate which H 0 och H 1 you are testing. 12
Some extra formulas: nonparametric tests The Wilcoxon signed rank test Let r i be the rank for the observations y i 0, i = 1,..., n. Let T + = {y r i>0} i and T = ( ) {y r i<0} i. When H 0 is true and n > 15 us that T + and T N n(n+1) 4, n(n+1)(2n+1) 24. For n 15 us table for Wilcoxons signed rank distribution. For confidence interval us the N = n(n+1)/2 ordered pairwise means A i and P (A (k) < µ < A (N k+1) ) = 1 2P (W S k 1), where W S is Wilcoxons signed rank distributed. The Wilcoxon-Mann-Whitney test Let d ij be the differences d ij = x i y j, i = 1,..., n 1, j = 1,..., n 2 and d (k), k = 1,..., n 1 n 2, the ordered differences. The confidence interval for the difference in mean/median is given by I = ( d (c+1), d (n1n 2 c)), where c = T l n1(n1+1) 2 and T l is from the Wilcoxon table for the rank sum test. The Kruskal-Wallis test Assume a treatments. Let r ij be the rank for the observation y ij. Test statistic 12S a 3(N + 1), if no ties, N(N + 1) T = (N 1)(S a C), if ties, S r C where s i = n i j=1 r ij, S a = a s 2 i i=1 n i, S r = a ni i=1 j=1 r2 ij, C = 1 4 N(N + 1)2 and N = a i=1 n i. For small values of n 1,..., n a (a 3 and n i 5) use table and for large values of n 1,..., n a use that T χ 2 (a 1) when there is no treatmet effect. The Friedman test Assume t treatments and b blocks. Let r ij be the rank of y ij within each block, i.e., for each j, r ij = 1,..., t. Test statistic for the treatments is given by 12S t 3b(t + 1), if no ties, t(t + 1) T = b(t 1)(S t C), if ties, S r C where s i = b j=1 r ij, S t = 1 t b i=1 s2 i, S r = t b i=1 j=1 r2 ij and C = 1 4 bt(t + 1)2. For small values of b and t (t = 3, b 15 and t = 4, b 8) use table and for large values of b and t use that T χ 2 (t 1) when there is no treatmet effect. 13