7.3.3 Nonparametric Mann-Whitney test

Relevanta dokument
2. Test av hypotes rörande medianen i en population.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

F22, Icke-parametriska metoder.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Statistik för teknologer, 5 poäng Skrivtid:

Parade och oparade test

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

a) Facit till räkneseminarium 3

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

7.5 Experiment with a single factor having more than two levels

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Gamla tentor (forts) ( x. x ) ) 2 x1

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamen i matematisk statistik

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Introduktion och laboration : Minitab

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Medicinsk statistik II

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

TAMS38 - Föreläsning 4 Icke-parametriska metoder. Kursansvarig/examinator: Martin Singull Föreläsningar: Jolanta Pielaszkiewicz

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

2.1 Minitab-introduktion

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning G60 Statistiska metoder

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 12: Regression

Examinationsuppgifter del 2

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Tentamen i matematisk statistik

Föreläsning 5 och 6.

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Metod och teori. Statistik för naturvetare Umeå universitet

Hur man tolkar statistiska resultat

TMS136. Föreläsning 13

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Föreläsningsanteckningar till kapitel 9, del 2

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

F3 Introduktion Stickprov

Tentamen i matematisk statistik

Laboration 2 Inferens S0005M VT18

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg/Jep Agrell. Laboration 2. Statistiska test

Följande resultat erhålls (enhet: 1000psi):

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Medicinsk statistik II

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning G60 Statistiska metoder

Laboration 2 Inferens S0005M VT16

Avd. Matematisk statistik

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Föreläsning G60 Statistiska metoder

Hypotestestning och repetition

Räkneövning 3 Variansanalys

Föreläsning 5. Kapitel 6, sid Inferens om en population

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Uppgift a b c d e Vet inte Poäng

, s a. , s b. personer från Alingsås och n b

Tentamen i Matematisk statistik Kurskod S0001M

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

TAMS28 DATORÖVNING VT1

F9 SAMPLINGFÖRDELNINGAR (NCT

Tentamen i matematisk statistik

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Om statistisk hypotesprövning

Laboration med Minitab

Statistik 1 för biologer, logopeder och psykologer

TMS136. Föreläsning 11

Disraeli, England, 1860 talet: Det finns tre grader av osanning. Går ej att mäta hela populationen. Deskriptiv statistik

Lektionsanteckningar 11-12: Normalfördelningen

MINITAB i korthet. release 16. Jan-Eric Englund. SLU Alnarp Kompendium Swedish University of Agricultural Sciences Department of Agrosystems

Transkript:

7.3.3 Nonparametric Mann-Whitney test Vi har sett hur man kan testa om två populationer har samma väntevärde (H 0 : μ 1 = μ 2 ) med t-test (two-sample). Vad gör man om data inte är normalfördelat? Om vi har många mätningar (n 1 > 30 och n 2 > 30) kan vi hänvisa till centrala gränsvärdessatsen och utnyttja att medelvärdena blir approximativt normalfördelade oavsett vilka ursprungsfördelningar vi har.

7.3.3 Nonparametric Mann-Whitney test Om vi har få mätningar och inte törs anta normalfördelning, måste använda en s.k icke-parametrisk (eller generell) testmetod. Dessa baserar sig inte på medelvärden, utan på rangordningar eller tecken (+/-). Testen blir inte lika starka som de parametriska (svårare att upptäcka sanna mothypoteser, men de går att använda utan att göra några tveksamma antaganden.

7.3.3 Nonparametric Mann-Whitney test Exempel: En maskiningenjör har studerat draghållfastheten för två olika sorters stål. Man har använt fem provbitar av Stål A och sex stycken av Stål B: Resultat (MPa): 1 2 3 4 5 6 Stål A 340 330 327 365 345 Stål B 295 310 320 285 335 290 Föreligger det någon skillnad i hållfasthet mellan Stål A och Stål B?

7.3.3 Nonparametric Mann-Whitney test Ingen av normalfördelningsplottarna tyder på normalfördelning. Observera att båda serierna måste vara normalfördelade för att t-testet ska fungera.

7.3.3 Nonparametric Mann-Whitney test 1 2 3 4 5 6 Stål A 340 330 327 365 345 Stål B 295 310 320 285 335 290 Idé: Slå ihop stickproven och ordna dem i storleksordning. Rang 1 2 3 4 5 6 7 8 9 10 11 Hållfasthet 285 290 295 310 320 327 330 335 340 345 365 Om hållfastheternas fördelningar vore identiska så skulle det bara vara slumpen som styr vilken rang en observation får. Vi kan använda rangsumman W för det ena stickprovet (oftast väljer man det med minst antal obs) som testvariabel. Om fördelningarna skiljer sig åt bör W bli stor eller liten.

7.3.3 Nonparametric Mann-Whitney test Rang 1 2 3 4 5 6 7 8 9 10 11 Hållfasthet 285 290 295 310 320 327 330 335 340 345 365 W = 6 + 7 + 9 + 10 + 11 = 43. Om det värdet är osannolikt stort eller inte kan bestämmas genom att räkna ut hur många rangordningar som skulle ge en så stor rangsumma eller större, under förutsättning att hållfastheterna har samma fördelning för de två ståltyperna. Den sannolikheten blir vårt p-värde för testet av H 0 : Ståltyperna likvärdiga mot H 1 : Typ 2 starkare (ensidig mothypotes). Om vi vill göra ett tvåsidigt test måste det beräknade p-värdet fördubblas.

7.3.3 Nonparametric Mann-Whitney test Mann-Whitney Test and CI: Stål A; Stål B N Median Stål A 5 346,00 Stål B 6 292,50 Point estimate for η1 - η2 is 53,00 96,4 Percent CI for η1 - η2 is (4,99;129,99) W = 43,0 Test of η1 = η2 vs η1 > η2 is significant at 0,0112 Mann-Whitneys test kallas även Wilcoxons tvåstickprovstest eller Rangsummetest Stat Nonparamerics Mann-Whitney

7.4 The analysis of paired data t-tests Vi återvänder nu till de parametriska testen och normalfördelningsantagande. Ett krav vid de tidigare testen av två stickprov är att de inte beror på varandra. Exempel: Effekten av fysisk träning på halten av triglycerider studeras på tio försökspersoner. Triglyceriderna mättes precis före och precis efter ett träningspass. Försöksperson 1 2 3 4 5 6 7 8 9 10 Före träning 68 77 94 73 37 131 77 24 99 29 Efter träning 95 90 86 68 47 121 116 65 131 31 Föreligger det någon skillnad mellan triglyceridhalten före och efter träningspasset? (Triglycerider är en sorts fetter eller oljor som finns i blodet och kommer från den mat man äter, tillverkas inte i kroppen)

7.4 The analysis of paired data t-tests I det här exemplet beror de två stickproven (före och efter träning) på varandra. Är triglyceridhalten hög för en viss individ före träningen så är den är den troligen även hög efter träningen. 140 Scatterplot of Efter vs Före 120 100 Efter 80 60 40 20 20 40 60 80 Före 100 120 140 Correlation: Före; Efter Pearson correlation of Före and Efter = 0,826 P-Value = 0,003 Korrelationen är 0,826, dvs relativt hög.

7.4 The analysis of paired data t-tests Som vid tidigare jämförelse av två stickprov vill vi testa H 0 : Triglyceridhalten är lika före och efter H 1 : Halten är olika före och efter Det som är intressant att studera är de parvisa differenserna (förändringarna). Differens = Efter - Före. Vi kan konstatera att 3 av 10 differenser är negativa. Halten är högre efter, eller? Tillfälle Före Efter Differens 1 68 95 27 2 77 90 13 3 94 86-8 4 73 68-5 5 37 47 10 6 131 121-10 7 77 116 39 8 24 65 41 9 99 131 32 10 29 31 2

7.4 The analysis of paired data t-tests Vi kan inte styrka att data inte är normalfördelat.

7.4 The analysis of paired data t-tests One-Sample T: Differens Test of μ = 0 vs 0 Variable N Mean StDev SE Mean 95% CI T P Differens 10 14,10 19,52 6,17 (0,14; 28,06) 2,28 0,048 Vi kan statistiskt påvisa att Triglyceridhalten är olika före och efter träning. Eftersom konfidensintervallet bara innehåller positiva halter så kan vi dra slutsatsen att halten är högre efter än före.

7.4 The analysis of paired data t-tests Det finns en speciell meny i Minitab för parade data där vi slipper skapa differenserna själva. Stat Basic Statistics Paired t

7.4 The analysis of paired data t-tests Paired T-Test and CI: Före; Efter Paired T for Före - Efter N Mean StDev SE Mean Före 10 70,9 33,5 10,6 Efter 10 85,0 32,6 10,3 Difference 10-14,10 19,52 6,17 95% CI for mean difference: (-28,06; -0,14) T-Test of mean difference=0(vs 0): T-Value=-2,28 P-Value=0,048

7.4 The analysis of paired data sign test Vad gör vi om vi har parat data, men inte kan anta normalfördelning? Vi fortsätter med exemplet. Anta att vi inte vågar anta att differenserna är normalfördelade. Försöksperson 1 2 3 4 5 6 7 8 9 10 Före träning 68 77 94 73 37 131 77 24 99 29 Efter träning 95 90 86 68 47 121 116 65 131 31 Differens 27 13-8 -5 10-10 39 41 32 2 Vi konstaterade tidigare att 3 av 10 differenser är negativa. Om H 0 : Träningen påverkar inte triglyceridhalten är sann, är P( Positiv differens ) = P( Negativ differens ) = 0,5 (vi bortser från noll-differenser). Detta gäller oavsett mätvärdenas fördelning!

7.4 The analysis of paired data sign test Under H 0 är V = antal negativa differenser Bin(10, 0,5)-fördelad. Om vi har H 1 : Träning sänker triglyceridhalten, så blir p-värdet för testet P(V 3) = 0,1719, dvs H 0 kan inte förkastas. 0,25 Distribution Plot Binomial; n=10; p=0,5 0,20 Probability 0,15 0,10 0,05 0,1719 0,00 3 X 9

7.4 The analysis of paired data sign test Testet utnyttjar inte lika mycket information som vi gör vid t-test och blir därför svagare, men fördelen är att vi inte behöver göra några antaganden som kan vara tveksamma. Om vi endast fått 1 negativ differens hade vi förkastat H 0 på 5% signifikansnivå. 0,25 Distribution Plot Binomial; n=10; p=0,5 0,20 Probability 0,15 0,10 0,05 0,01074 0,00 1 X 9

7.4 The analysis of paired data sign test Om vi istället haft H 1 : Träning förändrar triglyceridhalten, så hade vi varit tvungna att även ta hänsyn till lika extrema resultat i andra svansen av fördelningen. p-värdet fördubblas till 0,3438 och givetvis kan inte H 0 förkastas nu heller. 0,25 Distribution Plot Binomial; n=10; p=0,5 0,20 Probability 0,15 0,10 0,05 0,1719 0,1719 0,00 3 X 7

7.4 The analysis of paired data sign test I Minitab finns ett speciellt kommando för teckentest Sign Test for Median: Differens Sign test of median = 0,00000 versus 0,00000 N Below Equal Above P Median Differens 10 3 0 7 0,3438 11,50 Stat Nonparamerics 1-sample sign