TAMS38 Datorövning 4 Förberedelser: Läs igenom uppgifterna i förväg och fundera över modeller och analyser. Läs igenom teorin för val av stickprovsstorlek, regressionsanalys, responsytor och logistisk regression. Gör hemuppgifterna 5b (samt 6a och f). Ta med formelsamling och miniräknare till datorövningen. 1 Analys av en responsyta Följande datamaterial ger försöksdata för det avslutande försöket i en serie där man via steepest ascent försökt hitta optimala värden på temperatur och ph för en kemisk reaktion. Purity data from uniform-precision rotable Central Composite Design x 1 x 2 Temp. ph Purity Y Factorial -1-1 53 5.0 90.1 portion +1-1 55 5.0 91.8-1 +1 53 5.8 90.7 +1 +1 55 5.8 93.6 Centre 0 0 54 5.4 94.1 portion 0 0 54 5.4 94.6 0 0 54 5.4 94.2 0 0 54 5.4 93.9 0 0 54 5.4 94.0 Axial -1.414 0 52.59 5.4 89.0 portion +1.414 0 55.41 5.4 92.3 0-1.414 54 4.83 90.7 0 +1.414 54 5.96 92.5 1
Visar 2 2 -försöket med fem observationer i centrumpunkten tendens till krökning? Gå in under STAT/DOE/Factorial/Create Factorial Design... Antalet faktorer är två. Klicka på Designs och välj Number of Center Points: 5. Skriv in de nio y-värdena i c7 i rätt ordning genom att titta på A- och B-nivåerna. Kalla c7 för Y. Vänta med de fyra extrapunkterna. Gå in under STAT/DOE/Factorial/Analyze Factorial Design... Under Response ange c7. a) Genomför test av krökning på nivån 0.01. Slutsats? Döp om c5 och c6 till x1 och x2. Fyll på med extrapunkterna i c5-c7. Skapa sedan nya kolumner genom att skriva i sessionsfönstret let c8=c5*c6 let c9=c5**2 let c10=c6**2 b) Döp de nya kolumnerna till x1*x2, x1**2 och x2**2. Du kan nu anpassa en andragradsyta till dina data. Gå in under Stat/Regression/Regression och fyll i Response: c7, Predictors: c5 c6 c8-c10. c) Går det att med hjälp av denna andragradsyta hitta en optimal punkt? Räkna om värdena på x1 och x2 för den optimala punkten till verklig temperatur och verkligt ph. d) Det kan vara trevligt att titta efter hur den anpassade andragradsytan ser ut. Gå in under Calc/Make Mesh Data... Lägg x1-värden i c11 från -1.5 till 1.5 med 21 punkter och x2-värden likadant i c12 (inget för Z). Som Z-funktion ska du ha det skattade regressionsuttrycket. Skriv i sessionsfönstret let c13=...+...*c11+...*c12+...*c11*c12... Fyll i rätt koefficienter från regressionsanalysen och ta med alla termerna. Gå in under Graph/3D Surface Plots/Wireframe plot och fyll i Z: c13 Y: c12 X: c11. Vad får ni? 2
2 Bestämning av stickprovsstorlek vid normalfördelning En forskargrupp vill studera om regelbunden träning kan öka mineralinnehållet i skelettet hos unga kvinnor. Man tänker välja ut n unga kvinnor, mäta deras mineralinnehåll i skelettet, låta dem träna enligt ett visst program i sex månader och sedan på nytt mäta mineralinnehållet i skelettet. Låt x i och y i beteckna deras mineralinnehåll (enhet:%) före respektive efter träningsperioden. Då beskriver z i = y i x i förändringen. Tidigare mätningar har visat att det är rimligt att anta att Z i N(µ, 4). Man vill testa H 0 : µ = 0 mot H 1 : µ 0 på nivån 0.05, så att styrkan för testet är minst 0.90 om µ = 2. Hur ska man välja n? a) Gå in i Minitabmenyn Stat/Power and Sample Size/1-sample Z. Fyll i Differences: 2 Power values: 0.90 Standard deviation: 4.0 Klicka på Options och välj Alternative Hypothesis: Not equal samt Significance level: 0.05. Klicka på Graphs: och välj Display Power Curve. Sedan OK. Ger n 1 =....... b) Gör om proceduren men välj ett ensidigt test. Ger n 2 =....... c) Bestäm också styrkan för det tvåsidiga testet om n = 25 genom att utnyttja samma Minitabrutin. Styrka:....... d) Gör om a) med rutinen 1-sample t. Ger n 3 =....... 3 Stickprovsstorlek vid binomialfördelning a) Vid behandling av en kronisk sjukdom med ett gammalt beprövat läkemedel upplever 20% av patienterna en tydlig lindring. Man har tagit fram ett nytt läkemedel och man hoppas att det tillsammans med den traditionella behandlingen ska hjälpa fler patienter. 3
Genom att låta n patienter pröva den nya kombinationsbehandlingen och ta reda på hur många som upplever en förbättring vill man pröva H 0 : p = 0.2 mot H 1 : p > 0.2 på nivån 0.01 och man vill att styrkan för testet ska vara 0.99 om p = 0.4. Bestäm n genom att utnyttja Stat/Power and Sample Size/One proportion med rätt mothypotes. Ger n a =....... Titta också på styrkefunktionen. b) Lös uppgift 60 i Problemsamlingen, med hjälp av Stat/Power and Sample Size/Two proportions. Ger n b =....... 4 Bestämning av stickprovsstorlek vid enfaktorförsök Lös uppgift 3-44 i Design and Analysis of Experiments Montgomery, med hjälp av Stat/Power and Sample Size/ Oneway ANOVA. Ger n =....... Detta stämmer inte med vårt gamla resultat, vilket beror på att Minitab arbetar med parvisa jämförelser mellan µ i och µ j, medan vi diskuterade F-test av H 0 : µ 1 =... = µ 4 på nivån 0.05. 5 Logitisk regression, blandmodell 1974 och 1975 gjordes två undersökningar av National Opinion Research Center, University of Chicago, Illinios där människors attityd mot kvinnor betraktades. Varje tillfrågad skulle ta ställning till följande påstående: Women should take care of running their homes and leave running the country up to men. Observationer från 1305 män och 1566 kvinnor är sammanställda i tabellen nedan. 4
Antal Män, j = 1 Kvinnor, j = 2 utbildningsår, k positiva negativa positiva negativa 0 4 2 4 2 1 2 0 1 0 2 4 0 0 0 3 6 3 6 1 4 5 5 10 0 5 13 7 14 7 6 25 9 17 5 7 27 15 26 16 8 75 49 91 36 9 29 29 30 35 10 32 45 55 67 11 36 59 50 62 12 115 245 190 403 13 31 70 17 92 14 28 79 18 81 15 9 23 7 34 16 15 110 13 115 17 3 29 3 28 18 1 28 0 21 19 3 13 1 2 20 3 20 2 4 Datan ovan finns på kurshemsidan att ladda ner. Efter en snabb titt på data så verkar det som att ju längre utbildning desto mindre andel positiva till påståendet. Vi ska nu analysera data med logistisk regression och svara på några frågor om hur utbildningslängden och kön har betydelse. Vi inför dummyvariabeln { 0 om j = 1 (man) z j = 1 om j = 2 (kvinna) för att separera de två grupperna män och kvinnor. Namge kolumnerna y jk för de positiva, x jk för de negativa, dummyvariabeln z j och antalet utbildingsår k. Där finns även en kolumn för det totala antalet n jk = y jk + x jk tillfrågade för varje kön j och utbildningsår k. Bilda en kolumn med andelen positiva ˆp jk = y jk /n jk. a) Plotta andelen positiva ˆp jk mot antalet utblidningsår k. Välj Graph/Scatterplot/With Gropus så att vi kan se skillnaden mellan män och kvinnor. b) Skriv upp modellen där konstantterm och lutning kan vara olika för de två grupperna (logit p jk =...). Använd dummyvariabeln för att separera grupperna. (Hemuppgift) Genomför en logit-analys för den givna modellen med dummyvariabeln. Gå in under Stat/Regression/Binary Log... 5
c) Vilka parametrar i din modell är signifikanta? Är du nöjd med deviansen? D =......... P =......... Slutsats? Extra uppgift En anledning till att modellen inte är så bra kan vara att vissa celler har färre än tio observationer och påverkar resultatet mer än vad som är önskvärt. Ett sätt att hantera denna problematik skulle kunna vara att helt enkelt ta bort dessa observationer. Gör om analysen för samma modell men där alla observationer som är tio eller färre per cell är bortagna. Kopiara all data i datafönstret till nya kolumner och ta bort de som ej ska ingå (alla där n 10). Gå in under Stat/Regression/Binary Log... och gör en ny analys med de nya kolumnerna. d) Vilka parametrar i din modell är signifikanta? Är du nöjd med deviansen? D =......... P =......... Slutsats? 6 Användning av dummyvariabler vid additiv modell (Extra uppgift) Vid tillverkning av tvål görs en kvalitetsklassning av tvålens utseende enligt en skala från 1 till 10, ju högre värde desto bättre. Man tror att skillnader mellan operatörer samt hastigheten på produktionslinjen har betydelse. Resultat: Appearance Operator Line Speed (Sum for 30 Bars) 1 150 255 1 175 246 1 200 249 2 150 260 2 175 223 2 200 231 3 150 265 3 175 247 3 200 256 6
Genomför en regressionsanalys svarande mot en additiv tvåfaktormodell genom att utnyttja förklaringsvariablerna { { 1 för operatör 1 1 för operatör 2 x 1 =, x 0 annars 2 =, 0 annars { { 1 för hastighet 1 1 för hastighet 2 z 1 =, z 0 annars 2 =. 0 annars Lägg in data i datafönstret och skriv in variabelnamnen i namnraden. Kalla den aktuella responsvariabeln för Y. Gå in under Stat/Regression/Regression och beställ en regressionsanalys med Y som responsvariabel och x 1, x 2, z 1, z 2 som prediktorer. Under Graphs beställer du plott av residualerna mot de skattade väntevärdena (fits) samt normalfördelningsplott av residualerna. Under Storage beställer du lagring av (X X) 1. Ta sedan OK. Titta överst i analysen var (X X) 1 har hamnat och skriv i sessionsfönstret print m1 om den finns i m1. a) Ställ upp den aktuella modellen. (Hemuppgift) b) Gör konfidensintervall för samtliga β-koefficienter vart och ett med konfidensgrad 95%. Finns det påvisbara skillnader mellan operatörer? c) Vilka parametrar beskriver skillnaden mellan hastighet 1 och 2? Punktskatta den? d) Titta på residualplottarna. e) Skapa två kolumner med nivåer för operatör respektive hastighet. Gå in under Stat/ANOVA/Balanced ANOVA och genomför en analys enligt en additiv tvåfaktormodell med lagring av medelvärden för de olika faktorerna (beställs under Results). f) Ställ upp modellen. (Hemuppgift) g) Skatta skillnaderna i kvalitetsbedömningen mellan hastigheterna och jämför med motsvarande parameterskattningar i c). h) Kan vi rekommendera någon hastighet? Konstruera lämpliga konfidensintervall med simultan konfidensgrad exakt 90%. 7
7 Styrka hos t-test (Extra uppgift) Låt x 1,..., x n vara observationer från N(µ, σ). Vi kan då pröva hypotesen H 0 ; µ = 5 mot H 1 : µ 5 med teststorheten w = x 5 s/ n. H 0 förkastas om w > t, där t ges i t(n 1)-tabell av villkoret F (t) = 0.975, då testet har nivån 0.05. Vi ska dels studera signifikansnivån, d v s P ( W > t om µ = 5), dels testets styrka då µ = 6, dvs. P ( W > t om µ = 6). Styrkan beror inte bara på det alternativa µ-värdet utan även på standardavvikelsen σ. Styrkeberäkningar är bl a intressanta då man planerar en undersökning och vill kunna bedöma hur många mätningar som behövs. För t-testet är det besvärligt att räkan på styrkan för hand och då har man nytta av simuleringar. a) Rensa fönsterna. Gå in under Calc-Random data-normal distribution och generera 1000 rader i c1-c16 med väntevärde 5 och standardavvikelse 1.2. I varje rad har man sedan 16 observationer från N(5, 1.2). Ta sedan Calc-Row Statistics, välj alternativet mean med Input Variables c1-c16 och lagra i c17. Ta sedan Calc-Row Statistics, välj alternativet stdev med Input Variables c1-c16 och lagra i c18. Beräkna teststorhetens värde för varje rad genom att skriva i sessionsfönstret let c19 = (c17-5)/(c18/4) För att få fram t-värdet kan man gå in under Calc-Probability Distribution-t; välj Inverse cumulative probability. Fyll också i Noncentrality parameter: 0.0, frihetsgrad och Input constant: 0.975. Skriv i sessions-fönstret let k1 =... let c20 = c19 < -k1 let c21 = c19 > k1 sum c20 sum c21 Då är sum c20 + sum c21 =......... antalet gånger nollhypotesen förkastats. Stämmer denna summa med vad ni väntade er med hänsyn till signifikansnivån? b) Rensa datafönstret, men inte sessionsfönstret. Gör om proceduren med data från N(6, 1.2). OBS! Ni ska fortfarande pröva H 0 : µ = 5. med samma teststorhet w. Med hjälp av y = sum c20 + sum c21 kan man beräkna ett approximativt värde y/1000 =......... på styrkan för µ = 6. Är ni nöjda med styrkan? c) Bestäm också styrkan genom att utnyttja lämplig rutin under Stat/Power and Sample Size. Styrkan blir......... 8