016-10-10 Gamla tentor - 016 1 1 (forts) ( x ) x1 x ) ( 1 x 1
016-10-10. En liten klinisk ministudie genomförs för att undersöka huruvida kostomläggning och ett träningsprogram lyckas sänka blodsockernivån hos patienter med något förhöjt blodsockervärde. Härvid görs ett slumpmässigt urval av individer som vid rutinmätningar av blodsockernivån visat sig ha ett lätt förhöjt värde. Mätning av blodsockernivå görs både före träning+kost-intervention ( Före ) och efter ( Efter ) en tid då programmet, enligt förhandshypoteser, skulle ha gett tydlig effekt. Erfarenheten säger att blodsockernivåerna är approximativt normalfördelade. OBS! Även om du är intresserad av att se om behandlingen sänker blodsockernivå kan du inte helt säkert utesluta att den faktiskt kan motsatt effekt, något som du behöver tänka på vid dina statistiska analyser. (1 p) c) Vi antar nu istället att blodsockernivåerna INTE är normalfördelade. Upprepa hypotesprövningen under dessa ändrade förutsättningar medan andra förutsättningar kvarstår oförändrade. Ange beteckningen på den metod du nu använder. Vilken blir slutsatsen avseende effekten av behandlingen när du använder denna metod? (4 p) Fortfarande är förstås data parade men då populationerna inte är normalfördelade kan t-test ej användas. Vi använder därför den icke-parametriska motsvarigheten för parade variabler, nämligen Wilcoxon s teckenrangtest. Genomförande enligt nedan: Nollhypotes: Ingen skillnad i median före och efter Alternativ hypotes (tvåsidig): högre eller lägre blodsockernivå efteråt. Signifikansnivå: Vi väljer 0.05 Rangordna värdena från lägst till högst absolutvärde och summera sedan rangtalen för negativ (T - ) respektive positiv (T + ) förändring. Samma värden ger medeltal för de två möjliga rangtalen: T - =.5+.5+4+5.5+5.5=0 T + =1 n=6 då differensen noll inte förekommer. Titta nu på det kritiska värdet som den lägsta rangsumman högst får anta för tvåsidigt test med signifikansnivå 0.05 och n=6. Detta blir T 0.05 (6)=0. Då den lägsta rangsumman är 1 kan vi inte förkasta nollhypotesen. Vi kan alltså inte påvisa någon effekt av livsstilsinterventionen. d) Vilka av metoderna i b och c kan förväntas ha högst styrka (power) och hur stämmer detta med dina fynd? Motivera ditt svar och definiera även begreppet power. ( p) Power (styrka) är sannolikheten att förkasta en nollhypotes som verkligen är falsk. Den parametriska metoden (t-testen) kan förväntas ha högst styrka då den utnyttjar all kvantitativ information i data avseende storleken på alla individuella förändringar. Den icke-parametriska metoden utnyttjar enbart information om rangordningar. Detta stämmer väl med fynden ovan då jag kan förkasta nollhypotesen med användande av t-testen men ej med Wilcoxon s teckenrangtest.
016-10-10 Choosing test-statistic in Wilcoxon signed rank test For a two tailed test the test statistic is the smaller of T + and T - For a one tailed test, where the alternative hypothesis is that the median is greater than a given value, the test statistic is T - For a one tailed test, where the alternative hypothesis is that the median is less than a given value, the test statistic is T +. N? Ignore equal values reduces n to be used in table 3. Antag att du, i en specifik statistisk hypotesprövning, finner att p = 0. men du har valt signifikansnivån p<0.05. Vad står sannolikheten p<0.05 för. Dvs. vad innebär sannolikheten att begå ett typ I fel vid statistisk hypotesprövning. (1 p) Svar: Maximalt acceptabla sannolikheten att nollhypotesen förkastas om den är sann är 5 %. 4. Antag att 30 % är rökare av personerna i en grupp på 100 personer som fått hjärtinfarkt. Motsvarande siffra är 10 % i en grupp på 150 personer som inte fått hjärtinfarkt. Ange ett lämpligt statistiskt test som kan används för att testa om proportionen rökare skiljer sig mellan grupperna med och utan hjärtinfarkt. (1 p) Z-test för proportioner 5. Du har en samvariation mellan två slumpvariabler x och y enligt följande tabell. (3 p) a) Ange regressionskoefficient och korrelationskoefficient. ( p) x y 1 - -4 3-6 4-8 Svar: Regressionskoefficienten (lutningen) =-4/=- Korrelationskoefficienten = -1 då alla punkter ligger perfekt på en linje b) Hur är determinationskoefficienten relaterad till korrelationskoefficienten? (1 p) Svar: Determinationskoefficienten är korrelationskoefficienten (r) i kvadrat. 3
016-10-10 6. Du har gjort mätningar av en läkemedels effekt hos en grupp personer och vill nu presentera dina data med ett lägesmått (ett genomsnittsvärde) och ett spridningsmått. Vad gäller genomsnittsvärden funderar du på att använda antingen median eller aritmetiskt medelvärde och vad gäller spridningsmått funderar du på antingen standardavvikelse eller kvartilavstånd. Dina data visar sig ha ett medelvärde som är avsevärt högre än medianvärdet. a) Hur beräknas (definieras) aritmetiskt medelvärde respektive median? (1 p) Medelvärdet beräknas som summan av mätvärdena delat med antalet värden. Medianvärdet är det värde som ligger i mitten, dvs det finns lika många mätvärden som är mindre och som är större. Om vi har ett jämnt antal mätvärden beräknas medianvärdet som medelvärdet av de två mätvärdena i mitten. 6. Du har gjort mätningar av en läkemedels effekt hos en grupp personer och vill nu presentera dina data med ett lägesmått (ett genomsnittsvärde) och ett spridningsmått. Vad gäller genomsnittsvärden funderar du på att använda antingen median eller aritmetiskt medelvärde och vad gäller spridningsmått funderar du på antingen standardavvikelse eller kvartilavstånd. Dina data visar sig ha ett medelvärde som är avsevärt högre än medianvärdet. b) Vad menas med kvartilavstånd? (1 p) Detta är, när det används som spridningsmått, skillnaden mellan första och tredje kvartilgränserna (ibland lite slarvigt mellan första och tredje kvartilen ). Inom kvartilavståndet finns 50 % av alla mätdata och det är de data som är mest centrala. De tre kvartilgränserna delar ett material i 4 olika delar. Här är första kvartilgränsen det värde för vilket 5 % av alla mätvärden är lägre. Den andra kvartilgränsen är lika med medianen och, således, det värde för vilket 50 % av mätvärden är lägre. Slutligen, tredje kvartilgränsen är det värde för vilket 5 % av mätvärdena är högre och alltså 75 % av mätvärdena lägre. 6. Du har gjort mätningar av en läkemedels effekt hos en grupp personer och vill nu presentera dina data med ett lägesmått (ett genomsnittsvärde) och ett spridningsmått. Vad gäller genomsnittsvärden funderar du på att använda antingen median eller aritmetiskt medelvärde och vad gäller spridningsmått funderar du på antingen standardavvikelse eller kvartilavstånd. c) Hur väljer du lämpligen att presentera dina data? MOTIVERA SVARET! ( p) Då medianvärdet är avsevärt lägre än medelvärdet tyder detta på att fördelningen av mätvärdena är skev med en lång svans uppåt (en positivt sned fördelning). Därför är det lämpligt att presentera data med median som lägesmått och kvartilavstånd som spridningsmått. Medianvärdet säger i detta fall mer om var tyngdpunkten av mätvärdena finns och interkvartilavståndet kräver inte förekomsten av en symmetrisk fördelning för att tolkas på adekvat sätt. 4
016-10-10 7. Uttryck i ord, skillnaden mellan den typ av information som rapporteras av standardavvikelsen respektive medelvärdets medelfel ( standard error of the mean ; SEM). ( p) -Standardavvikelsen ger information om spridningen i en population eller ett stickprov medan -SEM ger information om hur noggrant medelvärdet bestämts. SEM är standardavvikelsen för distributionen av medelvärdet. En sådan distribution fås om medelvärdet bestäms ett stort antal gånger genom slumpmässiga stickprov med visst antal observationer (n) från en given population. 8. Antag att du önskar designa en studie för att undersöka om en given koncentration av ett nytt läkemedel sänker blodtrycket hos en viss typ av försöksdjur. Det är lämpligt att överväga statistisk metod före studien sätter igång. Du funderar över att designa studien för att kunna använda ett parat t-test eller Wilcoxon s tecken-rangtest (Wilcoxon signed rank test). a) Hur kan studien praktiskt genomföras för att möjliggöra användande av något av dessa tester? (1 p) Varje djur får vara sin egen kontroll, dvs blodtrycket mäts både före och efter läkemedelsbehandlingen. Alternativt används matchade kontroller, dvs. varje individ i kontrollgruppen matchas mot en individ i testgruppen med avseende på exv kön, vikt och andra egenskaper. 8. Antag att du önskar designa en studie för att undersöka om en given koncentration av ett nytt läkemedel sänker blodtrycket hos en viss typ av försöksdjur. Det är lämpligt att överväga statistisk metod före studien sätter igång. Du funderar över att designa studien för att kunna använda ett parat t-test eller Wilcoxon s tecken-rangtest (Wilcoxon signed rank test). b) Vilken blir noll-hypotesen, respektive den alternativa (forskningshypotesen) i den aktuella studien. (1 p) Nollhypotes: Läkemedlet ändrar inte blodtrycket Alternativ hypotes: Läkemedlet ändrar blodtrycket 5
016-10-10 8. Antag att du önskar designa en studie för att undersöka om en given koncentration av ett nytt läkemedel sänker blodtrycket hos en viss typ av försöksdjur. Det är lämpligt att överväga statistisk metod före studien sätter igång. Du funderar över att designa studien för att kunna använda ett parat t-test eller Wilcoxon s tecken-rangtest (Wilcoxon signed rank test). c) Vilka förhållanden avgör om du kommer att välja t-test eller Wilcoxon s tecken-rangtest och varför ska det senare testet användas i sista hand? Ge ett detaljerat svar då beslutet inte är trivialt det finns många faktorer att ta hänsyn till. (4 p) Utifrån, exv pilotstudier eller tidigare erfarenhet vet jag kanske om materialet är normalfördelat (krävs för t-test) eller ej. Om det inte är normalfördelat kan jag använda n> approx. 30 då även icke normalfördelade populationer ger approximativt normalfördelade stickprovsmedelvärden. Alternativt, om distributionen är sned uppåt kan kanske logaritmering används för att transformera distributionen till en normalfördelning med möjlighet att använda t-test. Om inget av ovanstående är möjligt måste det icke-parametriska Wilcoxon-testet användas. Detta gör dock att man förlora styrka hos testet då all tillgänglig information inte kan användas. I detta senare test utgår man ju bara från rangordningen av förändringarna och inte de riktiga numeriska värdena. 9. Tabellen nedan beskriver hur förekomst av en viss sjukdom fördelar sig mellan tre olika patientgrupper. Beskriv proceduren för att testa hypotesen att det finns olika proportioner av sjuka patienter I de olika grupperna A - C. Beskriv proceduren inklusive angivande av nollhypotes och alternative hypotes samt val av testfunktion. Beräkna sedan värdet på denna funktion och drag statistiska slutsatser (fatta ett statistiskt beslut). (5 p) H 0 Patientgrupperna skiljer sig inte år. H 1 Patientgrupperna skiljer sig åt. α = 0.05 Test χ Patient Patientg Patientg gruppa rupp B rupp C Total t Friska 00 100 100 400 Sjuka 30 7 63 100 Totalt antal 30 107 163 500 PatientgruppA Patientgrupp B Patientgrupp C Totalt Obs Friska 00 Expe cted Obs Exp. Obs Exp. (400/ 500)* 30= 184 100 85.6 100 130.4 400 Sjuka 30 46 7 1.4 63 3.6 100 Totalt antal 30 107 163 500 (O E) (00 184) (30 46) (100 85.6) (7 1.4) (100 130.4) (63 3.6) 54.504 E 184 46 85.6 1.4 130.4 3.6 d.f. (r-1) (k-1) = Critical value: 0,05 () = 5.991 och faktiskt gäller även att 0,001 () = 13.816 Alltså, det finns en skillnad mellan grupperna (p<0.001) 6
016-10-10 10. Korrelation och regression Ibland måste korrelationskoefficienten räknas ut som Spearman s r snarare än Pearson s r. Under vilka förhållanden gäller detta, dvs. nämn något om de antaganden som ligger till grund för Pearson s r. ( p) För Pearson s r krävs ett tvådimensionellt normalfördelat material, vilket innebär att residualerna mellan data och linjen också är normalfördelade. I övrigt gäller både för Spearman s och Pearson s r att man måste ha oberoende slumpmässig stickprov och annat självklart. 11. Vad är en box-and-whisker plot och vilken information ger en sådan? När är den lämplig att använda istället för ett sk spridningsdiagram ( scatter plot ) (3 p) En box and whisker plot illustrerar data (utspridda längs y- axeln) med en central horisontell linje motsvarande medianen och en box (rektangel) som täcker det område längs y-axeln där de mittersta två kvartilerna (de 50 % av data som finns närmast medianen) är lokaliserade. Slutligen illustreras hela variationsbredden (range) med whiskers (T-formade linjer) som sticker ut från rektanglarna. Box-and-whisker plots är användbara för stora datamaterial (istället för spridningsdiagram vid små datamaterial) som inte är symmetriskt fördelade för at illustrera distributionens ungefärliga utseende. 7