TAMS38 Datorövning 2 Förberedelser: Läs om enfaktorförsök och tvåfaktorförsök, F-test, motsvarande ickeparametriska metoder och metoder att konstruera konfidensintervall. Ta med formelsamling, tabellhäfte, samt miniräknare till datorövningen. 1 Behandling av ödem As part of a study, 11 edematous patients were studied. By a random sampling technique 6 patients were given the diuretic agent and 5 a placebo. Urine sodium concentrations (meq/l) were measured 24 hours after admission of the agent or placebo. The results were: Agent: 20.4 92.5 61.3 44.2 11.1 23.7 Placebo: 1.2 6.9 33.7 20.4 17.2 Finns det en systematisk skillnad mellan grupperna och i så fall på vilket håll? a) Lägg in de båda stickproven i C1 och C2. Genomför Wilcoxon-Mann-Whitneys test, tvåsidigt på nivån 0.05. Gå in under Stat/Nonparametrics/Mann Whitney. Ger teststorheten W =......, P-värdet P =...... konfidensintervallet I η1 η 2 =........., där η 1 och η 2 är lägesparametrar för respektive stickprov. b) Gå in under Stat/Nonparametrics/Pairwise Differences och skapa differenserna d ij i c3. Sortera dem i storleksordning sort C3 C4 1
Konstruera I η1 η 2 med hjälp av d ij och formelsamlingens Wilcoxontabell. c) Gör motsvarande t-test och intervall genom att gå in under Stat/Basic Statistics/ 2-sample t, klicka INTE för lika varianser, klicka på Options och välj Confidence level: 0.95 Test mean: 0 Alternative: not equal. Ger P-värde =...... I µ1 µ 2 =.......... Anm Notera att normalfördelningsantagandena i c) innebär att man väljer täthetsfunktioner med inte försumbar sannolikhetsmassa på den negativa axeln. Detta ser ni genom att jämföra medelvärde och stickprovsstandardavvikele för respektive stickprov. Inte heller i a) kan man vara säker på konfidensgraden, eftersom det eventuellt inte är två likadana täthetsfunktioner med skilda lägesparametrar, då standardavvikelserna skiljer sig åt så mycket som i det här fallet. Varje d ij är i alla fall en väntevärdesriktig skattning av skillnaden mellan väntevärdena för de två stickproven. 2 Kruskal Wallis test Vi ska nu göra om uppgift 4 från datorövning 1 för att göra parvisa jämförelser mellan de olika tiderna. Vi undersökte där mängden energi som spädbarn får genom andra livsmedel, istället för bröstmjölk. Mätt i kilokalorier per dag (kcal/dag), för barn som ammades och där andra livsmedel har förts in vid 4, 5 eller 6 månade gav observationerna: Breast-fed for: Energy intake (kcal/dag) 4 months 499 620 469 485 660 588 675 517 649 209 404 738 628 609 617 704 558 653 548 5 months 490 395 402 177 475 617 616 587 528 518 370 431 518 639 368 538 519 506 6 months 585 647 477 445 485 703 528 465 Öppna uppgift 3 från datorövning 1 eller lägg in stickproven igen. a) Gå in under Stat/Nonparametrics/Kruskal Wallis och gör en icke-parametrisk analys. Slutsats: b) Gör parvisa jämförelser mellan väntevärdena genom att utnyttja Stat/Nonparametrics/Mann-Whitney. 2
I µ1 µ 2 =..................... I µ1 µ 3 =..................... I µ2 µ 3 =..................... Vad är den simultana konfidensgraden? 3 Analys av data Fullständig tvåfaktormodell Följande datamaterial består av livstiderna i timmar för tre sorters flygplansvingar som utsatts för två sorters vibrationer, den ena sorten med konstant frekvens den andra med frekvenser som sveper fram och tillbaka i ett givet band. Vingtyp 1 2 3 Vibr 1 1676 883 1212 1510 961 1090 Vibr 2 1915 948 1091 1763 1062 1212 Vi skall analysera datamaterialet enligt en fullständig tvåfaktormodell med Minitab. a) Hur ser denna tvåfaktormodell ut? Skriv den på två sätt. Starta ett nytt projekt i Minitab. Läs in observationerna i C1, nivåerna för faktorn A (vibrationstyp) i C2 och nivåerna för faktorn B (vingtyp) i C3. Det kan vara praktiskt att skriva in namn i namnraden i datafönstret. Kalla C1 för Y, C2 för A, C3 för B. I stället för A och B kan man använda lämpliga ord som talar om vad faktorerna handlar om. Det är alltid förståndigt att börja med att plotta datamaterialet för att eventuellt kunna upptäcka avvikande observationer. T ex PLOT C1*C2 PLOT C1*C3 ger plottar mot de olika faktornivåerna. Kommandot TABLE C2 C3; MEAN C1. 3
ger överblick över cellmedelvärdena. Gå in under Stat/ANOVA/Interactions plot så får du en plott där du kan se hur varje vingtyp reagerar på de båda vibrationstyperna. Ser faktorerna ut att vara additiva? Variansanalysen m.m. får du via Stat/ANOVA/Balanced Anova. Välj Responses: Y Model: A B Graphs: Normal plot of residuals Residuals versus fits Results: Display means corr... A B Strecket i A B innebär att vi begär en analys enligt den fullständiga modellen med samspelseffekter. Några iakttagelser i plottarna? Besvara följande frågor b) Har typen av vibration betydelse för livslängden? Genomför ett lämpligt test av huvudeffekter på nivån 0.01. c) Är de tre vingtyperna lika härdiga för vibrationer? Genomför ett lämpligt test av huvudeffekterna på nivån 0.01. d) Finns det samspelseffekter mellan vibrationstyp och vingtyp? Genomför ett lämpligt test på nivån 0.05. Jämför med samspelsplotten. e) Trots resultatet i d) behåller vi den fullständiga tvåfaktormodellen Y ijk = µ ij + ε ijk, där ε ijk är oberoende och N(0, σ). Gör parvisa jämförelser mellan vingtyperna för var och en av vibrationstyperna genom att konstruera lämpliga konfidensintervall med simultan konfidensgrad minst 0.88. Är någon vingtyp överlägsen de övriga? 4 Analys av data Additiv tvåfaktormodell Laddningsstatusen för ett bilbatteri ges av specifika vikten för elektrolyten och för ett blysyrabatteri svarar värdet 1.260 mot fullständig laddning. Man vill undersöka tre sorters bat-teriers förmåga att behålla sin laddningsstatus. Tre olika bilar användes för experimentet och eftersom bilarna kunde antas ha olika egenskaper såg man till att varje batterityp användes en gång för varje fordon. Fordon nr j hade alltså tre testperioder med batterityp 1, 2, 3 i slumpmässig ordning. (försök med randomisering inom block=bil). Under testperioderna användes bilarna på likartat sätt. Det gick alltså åt tre batterier av vardera typen. Efter varje testperiod mättes batteriets laddningsstatus. Resultat (decimalkomma har utelämnats): 4
Fordon Batterityp 1 2 3 1 1250 1252 1244 2 1258 1258 1250 3 1248 1252 1244 Analysera datamaterialet enligt en additiv tvåfaktormodell (modell 1). Låt A vara batterityp och B bil = fordon. Starta ett nytt projekt i Minitab. Läs in observationerna Y i C1, A- nivåerna i C2 och B-nivåerna i C3 och sätt namn på kolumnerna. Variansanalys enligt en additiv modell samt rad- och kolumnmedelvärden får du via Stat/ANOVA/Balanced Anova och Responses: Y Model: A B Storage: Klicka för Residuals och Fits Results: Display means... A B Här betyder A B i modellen att vi väljer additiv modell. Vi får nu residualerna i C4 och de skattade väntevärdena (fits) i C5. För säkerhets skull gör vi också NSCORES C4 C6 PLOT C6*C4; SYMBOL C3. vilket ger en normalfördelningsplott, där observationerna för de olika bilarna markerats (naturligtvis är residualplottarna intressantare för litet större datamaterial). Analysera också datamaterialet enligt en enfaktormodell (modell 2) där varje batterityp har ett stickprov (detta innebär att bilarna i modellen betraktas som likvärda). Gör även en normalfördelningsplott för den här modellen på samma sätt som ovan. Besvara följande frågor, där a)-c) handlar om modell 1 och d)-g) om modell 2. a) Hur ser modell 1 ut dvs den additiva tvåfaktormodellen. Vad blir σ 2 -skattningen? Frihetsgrader? b) Avgör med hjälp av ett test på nivån 0.05 om det finns skillnader mellan batterityperna i förmåga att behålla laddningsstatusen. Skillnader mellan bilarna? Nivå 0.05. c) Gör eventuellt parvisa jämförelser mellan batterityperna enligt Tukeys metod. Använd tabellen med α = 0.05, (k = antalet batterityper och f = antalet frihetsgrader för SS E ). d) Hur ser modell 2 ut? Vad blir σ 2 -skattningen? Frihetsgrader? Jämför med a). e) Avgör med hjälp av ett test på nivån 0.05 om det finns skillnader mellan batterityperna i förmåga att behålla laddningsstatusen. Jämför med resultatet i b). 5
f) Titta på normalfördelningsplotten. Finns det något systematiskt mönster? g) Vilken av de båda modellerna föredrar du? 5 Friedmans test Table 12.2 shows the heart rate of nine patients with congestive heart failure before and shortly after administration of enalaprilat, an angiotensin-converting enzyme inhibitor. Measurements were taken before and at 30, 60 and 120 minutes after drug administration. Table Short-term effect of enalaprilat on heart rate (beats per minute) (Maskin et al., 1985) Time (mins) Subject 0 30 60 120 Mean StDev 1 96 92 86 92 91.50 4.1 2 110 106 108 114 109.50 3.4 3 89 86 85 83 85.75 2.5 4 95 78 78 83 83.50 8.0 5 128 124 118 118 122.00 4.9 6 100 98 100 94 98.00 2.8 7 72 68 67 71 69.50 2.4 8 79 75 74 74 75.50 2.4 9 100 106 104 102 103.00 2.6 Mean 96.56 92.56 91.11 92.33 93.14 StDev 16.4 17.8 17.2 16.5 16.4 Vi vill undersöka hur enaprilat påverkar antalet hjärtslag per minut vid olika tidpunkter. Vid första anblicken verkar försöket ganska likt det vi studerade i uppgift 5, men det finns en avgörande skillnad: Den här gången har man gjort upprepade mätningar på samma patient. Detta bör vi försöka ta hänsyn till i modellen genom att betrakta varje patient som ett block. Om man kan anta normalfördelning använder man Modell: Patient nr i och tidpunkt nr j ger Y ij = µ + τ i + β j + ε ij, där τ i = effekt av patient, β j = effekt av tid och ε ij beskriver slumpmässiga variationer. Rensa fönsterna, gå in under File/Open project och öppna biostatlabupg6.mpj. Titta noga efter hur data har matats in. a) Gå in under Stat/Nonparametrics/Friedman, skriv in 6
Response:Y Treatment: T Blocks: P Ger P=....... Kan vi med någon säkerhet påstå att det finns skillnader mellan tidpunkterna i fråga om antalet hjärtslag per minut? b) Genomför en ANOVA-analys. Kan vi med någon säkerhet påstå att det finns skillnader mellan tidpunkterna i fråga om antalet hjärtslag per minut? Vi får P=....... Jämför resultaten i a) och b). c) Jämför tidpunkt 1 (t = 0) med tidpunkt 2 (t = 30) genom att först utnyttja Data- Unstack så att y-värdena för de olika tiderna kommer i olika kolumner. Bilda sedan differerenser mellan tidpunkt 1 och tidpunkt 2 let C... = C... - C... och utnyttja slutligen Stat/Nonparametrics/Wilcoxon one-sample för att konstruera ett 95% konfidensintervall för den systematiska skillnaden mellan tidpunkt 1 och tidpunkt 2. 6 Normalfördelningsplottar Då vi ska kontrollera om ε-variablerna uppfyller normalfördelningsantagandet utnyttjar vi ofta normalfördelningsplottar för residualerna. Det är därför intressant att studera vad som händer med normalfördelningsplottarna då normalfördelningsantagandet inte är uppfyllt. I Minitab kan man simulera data från olika fördelningar. Gå in under Calc/Random Data/Exponential och generera 100 (rows) observationer från exponentialfördelning med väntevärde (mean) 5 i C1. Generera också 100 observationer från Re(0, 10) (Uniform) i C2. Gå in under Graph/Probability Plot och gör en normalfördelningsplott först för C1 och sedan för C2. Verkar normalfördelningen passa? Generera även ett normalfördelat datamaterial och gör en normalfördelningsplott. 7