1 Grundläggande begrepp vid hypotestestning



Relevanta dokument
Laboration 4 Statistiska test

Laboration 4 Statistiska test Del I: Standardtest Del II: Styrkefubktion

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Laboration 4: Hypotesprövning och styrkefunktion

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Laboration 2: Styrkefunktion samt Regression

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Statistik 1 för biologer, logopeder och psykologer

Instruktioner till arbetet med miniprojekt II

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Examinationsuppgift 2014

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Utdrag ur: Räkna med variation - Digitala uppgifter. Lena Zetterqvist och Johan Lindström

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Stockholms Universitet Statistiska institutionen Termeh Shafie

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, OCH ÖVNING 2, SAMT INFÖR ÖVNING 3

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Statistik 1 för biologer, logopeder och psykologer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Laboration 2: Statistisk hypotesprövning

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Medicinsk statistik II

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

MSG830 Statistisk analys och experimentplanering

Statistik och epidemiologi T5

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg/Jep Agrell. Laboration 2. Statistiska test

TAMS65 - Föreläsning 6 Hypotesprövning

Föreläsning 5. Kapitel 6, sid Inferens om en population

, s a. , s b. personer från Alingsås och n b

Hur man tolkar statistiska resultat

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematisk statistik för B, K, N, BME och Kemister

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Hur skriver man statistikavsnittet i en ansökan?

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Lektionsanteckningar 11-12: Normalfördelningen

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

EXAMINATION KVANTITATIV METOD vt-11 (110204)

2. Test av hypotes rörande medianen i en population.

Instruktioner till arbetet med miniprojekt I

Resultatet läggs in i ladok senast 13 juni 2014.

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

MSG830 Statistisk analys och experimentplanering

Laboration 5: Intervallskattning och hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

FACIT (korrekta svar i röd fetstil)

F3 Introduktion Stickprov

Konfidensintervall, Hypotestest

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Tentamen i Matematisk statistik Kurskod S0001M

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum Skrivtid

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Instruktioner till arbetet med miniprojekt II

Uppgift a b c d e Vet inte Poäng

Föreläsningsanteckningar till kapitel 9, del 2

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

DATORLABORATION: JÄMFÖRELSE AV FLERA STICKPROV.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Kapitel 10 Hypotesprövning

Hypotestestning och repetition

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Om statistisk hypotesprövning

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

TMS136. Föreläsning 13

Laboration 4 R-versionen

7.3.3 Nonparametric Mann-Whitney test

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Uppgift a b c d e Vet inte Poäng

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Transkript:

Matematikcentrum Matematisk statistik MASB11: Biostatistisk grundkurs Datorlaboration 3, 6 maj 2015 Statistiska test och Miniprojekt II Syfte Syftet med dagens laboration är att du ska träna på de grundläggande begreppen inom hypotesprövning (t.ex. signikansnivå och styrka) samt vilka slutsatser man kan dra från analysen bekanta dig med lite av de funktioner som nns i R vad det gäller olika grundläggande statistiska test arbeta med kursens Miniprojekt II. Förberedelseuppgifter Du måste ha arbetat ordentligt med de väsentligaste begreppen i kapitel 6 och 7 i kursboken. Repetera vid behov begreppen hypoteser, signikansnivå, styrkefunktion samt modell med matchade data och modell med två oberoende stickprov. Du skall ha gjort följande uppgifter innan du kommer till laborationen. Hemuppgift 1: För att träna på de grundläggande begreppen i hypotest gör uppgifterna Dig6, Dig9, Dig10, Dig15 och Dig16 som du hittar på övningsblad 7. Hemuppgift 2: För att träna på olika modeller gör uppgifterna Dig3 och Dig4 som du hittar på övningsblad 8. 1 Grundläggande begrepp vid hypotestestning 1.1 Exempel: Muntorrhet Läkemedel kan ge en nedsatt salivkörtelfunktion, vilket är en riskfaktor för karies och andra sjukdomar i munhålan. På 7 slumpmässigt utvalda patienter som alla ck samma medicin mätte man under 5 minuter den så kallade tuggstimulerade saliven. Normal mängd saliv under dessa förhållanden är 1 ml/min och muntorrhet anses föreligga när mängden saliv understiger 0.7 ml/min. Som modell antog man att salivmängden är normalfördelad med väntevärde µ och standardavvikelse σ, där σ anses vara 0.5 ml/min. Intressanta frågeställningar är t.ex.: Stöder data vår misstanke att medicinen sänker salivproduktionen? Om medicinen ger upphov till en genomsnittlig salivproduktion på 0.8 ml/min, hur troligt är det att vi kommer att missa den nedsatta salivproduktionen med vårt test?

Hur många patienter ska vi mäta på om vi vill att testet ska upptäcka en nedsatt salivproduktion på 0.7 ml/min med sannolikheten 0.95? På kursens hemsida hittar ni data i len Saliv.RData. Kopiera också ner rutinerna Hypotes.R och Styrkefkn.R från kursens hemsida. Kortfattade svar till frågorna som ställs i uppgifterna nns i slutet på denna del av handledningen. Uppgift 1.1: Först vill man undersöka om data från de 7 patienterna stöder vår misstanke att medicinen sänker salivproduktionen Ställ upp lämpliga hypoteser. Uppgift 1.2: Beräkna medelvärdet av mätningarna. Uppgift 1.3: Använd rutinen Hypotes.R för att illustrera testets kritiska område då testet utförs på signikansnivå α = 0.05. Det aktuella kommandot är hypotes1(σ, n, µ 0, α, H1 riktn), så om hypoteserna är H 0 : µ = 1; H 1 : µ < 1 blir kommandot hypotes1(0.5, 7, 1, 0.05, < ). (Negligera de felmeddelanden som eventuellt kommer och titta på guren.) Uppgift 1.4: Rutinen markerar det kritiska området och anger ett värde k som är gränsen till området. Hur har k beräknats? Uppgift 1.5: Använd ditt beräknade medelvärde för att utföra testet. Vad är din slutsats om H 0? Uppgift 1.6: Vad är din konkreta tolkning av signikansnivån α = 0.05 i detta exempel? Uppgift 1.7: Undersök hur det kritiska område ändras då du ändrar signikansnivån till α = 0.01. Vad är din slutsats nu? Testets styrka och styrkefunktion med rutinerna Hypotes.R och Styrkefkn.R Antag nu att genomsnittlig salivutsöndring i riskgruppen är 0.8. Då är förstås H 0 : µ = 1 falsk och vi vill att vårt test ska upptäcka detta och förkasta denna hypotes till förmån för hypotesen H 1 : µ < 1. Sannolikheten att testet verkligen klarar av detta kallas för testets styrka i punkten 0.8. Använd rutinen Hypotes.R för att illustrera testets styrka i punkten 0.8. Kommandot är nu hypotes1(σ, n, µ 0, α, H1 riktn, santµ), så i detta fall skriver du hypotes1(0.5, 7, 1, 0.05, <, 0.8). 2

Uppgift 1.8: Rutinen ger dig ytterligare en gur som, förutom signikansnivån α (felrisk av typ I), även visar β (felrisk av typ II). Vad är den konkreta tolkningen av β i detta exempel? Hur hänger β ihop med testets styrka? Mer generellt, testets styrka i punkten µ, är P(H 0 förkastas då µ är verklig genomsnittlig salivutsöndring i riskgruppen). Observera att styrkan beror på värdet µ. I detta exempel gäller att ju mindre µ är i förhållande till µ 0 = 1 desto större är chansen att testet ska upptäcka att H 0 inte gäller. Därför är det intressant att studera styrkan som en funktion av µ, denna funktion betecknas ofta S(µ). Rutinen Styrkefkn.R ritar upp styrkefunktionen, kommandot är styrka1(σ, n, µ 0, α, H1 riktn, santµ) om du vill rita upp funktionen och markera ett speciellt µ-värde. Använd alltså kommandot styrka1(0.5, 7, 1, 0.05, <, 0.8), vilket ger dig den tidigare guren plus styrkan som en funktion av µ. Uppgift 1.9: Uppskatta utifrån styrkefunktionen hur stor sannolikheten är att vi med vårt test kommer upptäcka att en grupp som bör klassas som muntorra (µ = 0.7) har en sänkt salivproduktion. Uppgift 1.10: Hur många patienter bör vi mäta på om vi med sannolikheten 0.95 verkligen ska upptäcka att muntorra har en sänkt salivproduktion? Tips: Testa med olika värden på n i Styrkefkn. Svar till exemplet med muntorrhet: 1.1 H 0 : µ = 1; H 1 : µ < 1 1.2 k = µ 0 z 1 α σ n = 1 1.6445 0.05 7 = 0.689 1.5 Eftersom medelvärdet < 0.689 förkastas H 0 på nivå 0.05 1.6 Det är 5 % risk att vi påstår att riskgruppen har en sänkt salivproduktion när den i själva verket är normal 1.7 H 0 kan ej förkastas på nivå 0.01 1.8 β=p(ej förkasta H 0 då verklig genomsnittlig salivproduktion i riskgruppen är 0.8). β = 1 S(0.8), d.v.s. β är 1- styrkan i punkten 0.8 1.9 Styrkan i punkten 0.7 är S(0.7) vilket enligt guren kan uppskattas till 0.48 1.10 Det krävs n = 30 patienter för att styrkan ska vara 0.95 i punkten 0.7. 3

2 Några statistiska test i R Kortfattade svar till frågorna som ställs i uppgifterna nns i slutet på denna del av handledningen. Datamaterialen som används är Albumin, Klorofyll och Dammar, vilka du hittar på kurshemsidan. 2.1 Test av väntevärde i en population (t-test) Använd datamaterialet Albumin.RData. En blandning av blodserum innehåller exakt 42 g albumin per liter. Två laboratorier (A och B) får göra sex bestämningar var av koncentrationen. Vi vill undersöka om det nns någon systematisk avvikelse från det sanna värdet (42 g/l) (tvåsidig mothypotes). I R gör man två t-test med nedanstående kommandon i kommandofönstret (glöm inte att spara det som, t.ex. lab3.r) och kör dem. t.test(albumina, mu=42) t.test(albuminb, mu=42) Uppgift 2.1: Tolka utskriften. Hur stora är P-värdena och vad blir slutsatserna? Vad blir kondensintervallen för de förväntade koncentrationerna? Om du vill ha ett ensidigt test använder du ett av kommandona t.test(albuminb, mu=42, alternative="less") t.test(albuminb, mu=42, alternative="greater") Uppgift 2.2: Tolka utskriften och jämför P-värde och intervall med det tvåsidiga alternativet. 2.2 Jämförelse av väntevärden i två populationer (t-test vid två oberoende stickprov) Alger ck växa under ljusa respektive mörka förhållanden. Undersök med ett t-test om det nns skillnader i förväntad klorofyllhalt mellan de två grupperna genom att använda t.test igen men nu genom att lägga till gruppvariabeln t.test(klorofyll$klorofyll ~ Klorofyll$Grupp) Uppgift 2.3: Tolka utskriften. Om vi inte säger något annat förutsätter t.test att varianserna i de två grupperna är olika och kompenserar för det. Om vi vet (eller antar) att varianserna är lika kan vi utnyttja det: t.test(klorofyll$klorofyll ~ Klorofyll$Grupp, var.equal=true) Om man vill testa att varianserna är olika skriver man var.test(klorofyll$klorofyll ~ Klorofyll$Grupp) 4

Uppgift 2.4: Undersök om varianserna är olika. Vilket test bör användas? Slutsatser från det använda testet? En grask beskrivning av skillnaderna kan fås med en boxplot: plot(klorofyll$klorofyll ~ Klorofyll$Grupp) 2.3 Test vid matchade data (stickprov i par) I len Dammar.RData nns mätningar av kvävebelastning vår respektive sommar på ett antal dammar. Om man vill jämföra kvävebelastningen mellan de två årstiderna är en rimlig modell stickprov i par". För att tala om för t.test att data är matchade används kommandot t.test(dammar$n_belast_v, Dammar$N_belast_S, paired=true) Uppgift 2.5: Finns det några skillnader mellan vår och sommar? Svar till denna sektions frågor: 2.1 A: P = 0.033; B : p = 0.081; Vi kan påvisa en skillnad för A men inte för B. 95 % kondensintervall - A: (42, 06, 42.94); B: (35.69, 42.51) 2.4 Varianserna är inte olika (P = 0.48); t-test: P = 0.009; Vi kan påvisa en skillnad i klorofyll. 2.5 P = 0.262 Vi kan inte påvisa någon skillnad 5

Miniprojekt II Hade vår aktiveringskampanj eekt? Målsättningen med denna uppgift är bl.a. att du: ska träna på att hämta ett problem ur verkligheten och med hjälp av ett insamlat material konstruera en rimlig statistisk modell samt göra en kritisk granskning av modellen och dess förmåga att beskriva verkligheten; ska tillämpa dina kunskaper och med hjälp av R analysera ett biostatistiskt datamaterial; ska träna på att skriftligt redovisa antaganden, modeller och slutsatser från en statistisk analys. Redovisningen görs i form av en skriftlig rapport: Lämna in rapporten senast onsdagen den 20 maj kl. 15.00. Skicka rapporten som en pdf-l till masb11@matstat.lu.se. Ämnesrad ska skrivas som : < any text> < activity name> [by av] < student user name> ([and och] < non digit letter> < student user name> Exempel: MiniprojektII av kem13aab och nat14ccd Utformning av projektredovisning Målgruppen för rapporten är en person med bakgrundskunskaper som en student i samma årskurs, som läst den aktuella kursen men inte är insatt i detaljerna i den aktuella uppgiften. Rapporten bör vara strukturerad enligt följande: 1. Titelsida med med författarnas namn 2. Kort bakgrund och syfte med undersökningen 3. Redovisning av de uppgifter som nns i problemställningen. Ange (om så är lämpligt): vilka antaganden ni gör om data, vilka hypoteser ni ställer upp, resultatet av analysen och vilka tolkningar och slutsatser ni gör. Lämpliga gurer och tabeller ska vara med i rapporten. 4. Sammanfattning av era resultat. 6

Problemställningar i studien De esta forskare anser att hög kolesterolhalt i blodet är en riskfaktor för hjärt- och kärlsjukdomar. I en studie ville vi undersöka om man genom ett aktiveringsprogram bestående av era faktorer (rökstopp, mental och fysisk träning) kan minska halten av kolesterol. Vi utgick från en grupp på 40 rökande män som samtliga hade något förhöjda kolesterolhalter i blodet. Av dessa 40 valde vi slumpmässigt ut 20 (A-grupp) som ck genomgå vårt aktiveringsprogram. De övriga 20 (B-grupp) levde som vanligt, åtminstone såsom vi uppfattade det. Efter ett halvår mätte vi kolesterolhalten (mmol/l) på samtliga 40 män igen. I len kolesterol nns samtliga data och variablerna heter Afore, Aefter, Bfore samt Befter. Vi har förstås en rad frågeställningar vi vill ha svar på och jag har försökt punkta ner dem: (a) Eftersom vi slumpmässigt valt ut de 20 som ska genomgå aktiveringsprogrammet bör det inte nnas några skillnader mellan A-och B-gruppen beträande genomsnittlig kolesterolhalt innan studien börjar. Men vi vill verkligen försäkra oss om detta så vi inte från början introducerar en systematisk skillnad mellan grupperna. Kan ni undersöka? (b) Sänkte aktiveringsprogrammet den förväntade kolesterolhalten hos grupp A? (c) Det är inte otroligt att patienterna i grupp B, även om de inte genomgår aktiveringsprogrammet, ändå påverkas i sin kolesterolhalt eftersom uppmärksamhet kring frågorna kan ge eekt. Verkar det vara så i vår undersökning? (d) Kan vi dra slutsatsen att aktiveringsprogrammet påverkar de två grupperna på olika sätt? (e) En del forskare menar att kolesterolhalten ökar med åldern medan andra anser att faktorer som rökning och stillasittande har större betydelse. I variablerna Aalder och Balder nns de undersökta männens ålder vid studiens start. Tyder våra data vid studiens start på att åldern påverkar kolesterolhalten? (f) Men om åldern påverkar kolesterolhalten, måste vi inte ha med den i vår modell också då vi undersöker om aktiveringsprogrammet hade något eekt. Hur ska vi göra det? Hjälp oss! Tips på arbetsgång Börja med att beräkna sammanfattande mått i de olika grupperna och eventuellt rita histogram för att få en överblick av data. I frågeställningarna (a)-(d) gäller det att sätta upp rätt modell för data, välj mellan två oberoende stickprov och stickprov i par. Ange modell, hypoteser, beräkningsgång och slutsatser i samtliga fyra frågeställningar. Frågeställningarna i (e) och (f) gör du lämpligtvis först efter laboration 4 som handlar om regression. Plotta kolesterolhalt mot ålder och undersök om kolesterolhalten, bortsätt från slumpmässiga faktorer, kan beskrivas med en funktion av ålder. Uppgiften i (f) är knepigare. Nu vill vi ha två förklarande variabler i modellen: ålder samt en variabel som beskriver aktiveringprogrammets eekt. Ta hjälp av en handledare och diskutera modellen! 7