7.3.3 Nonparametric Mann-Whitney test Vi har sett hur man kan testa om två populationer har samma väntevärde (H 0 : μ 1 = μ 2 ) med t-test (two-sample). Vad gör man om data inte är normalfördelat? Om vi har många mätningar (n 1 > 30 och n 2 > 30) kan vi hänvisa till centrala gränsvärdessatsen och utnyttja att medelvärdena blir approximativt normalfördelade oavsett vilka ursprungsfördelningar vi har.
7.3.3 Nonparametric Mann-Whitney test Om vi har få mätningar och inte törs anta normalfördelning, måste använda en s.k icke-parametrisk (eller generell) testmetod. Dessa baserar sig inte på medelvärden, utan på rangordningar eller tecken (+/-). Testen blir inte lika starka som de parametriska (svårare att upptäcka sanna mothypoteser, men de går att använda utan att göra några tveksamma antaganden.
7.3.3 Nonparametric Mann-Whitney test Exempel: En maskiningenjör har studerat draghållfastheten för två olika sorters stål. Man har använt fem provbitar av Stål A och sex stycken av Stål B: Resultat (MPa): 1 2 3 4 5 6 Stål A 340 330 327 365 345 Stål B 295 310 320 285 335 290 Föreligger det någon skillnad i hållfasthet mellan Stål A och Stål B?
7.3.3 Nonparametric Mann-Whitney test Ingen av normalfördelningsplottarna tyder på normalfördelning. Observera att båda serierna måste vara normalfördelade för att t-testet ska fungera.
7.3.3 Nonparametric Mann-Whitney test 1 2 3 4 5 6 Stål A 340 330 327 365 345 Stål B 295 310 320 285 335 290 Idé: Slå ihop stickproven och ordna dem i storleksordning. Rang 1 2 3 4 5 6 7 8 9 10 11 Hållfasthet 285 290 295 310 320 327 330 335 340 345 365 Om hållfastheternas fördelningar vore identiska så skulle det bara vara slumpen som styr vilken rang en observation får. Vi kan använda rangsumman W för det ena stickprovet (oftast väljer man det med minst antal obs) som testvariabel. Om fördelningarna skiljer sig åt bör W bli stor eller liten.
7.3.3 Nonparametric Mann-Whitney test Rang 1 2 3 4 5 6 7 8 9 10 11 Hållfasthet 285 290 295 310 320 327 330 335 340 345 365 W = 6 + 7 + 9 + 10 + 11 = 43. Om det värdet är osannolikt stort eller inte kan bestämmas genom att räkna ut hur många rangordningar som skulle ge en så stor rangsumma eller större, under förutsättning att hållfastheterna har samma fördelning för de två ståltyperna. Den sannolikheten blir vårt p-värde för testet av H 0 : Ståltyperna likvärdiga mot H 1 : Typ 2 starkare (ensidig mothypotes). Om vi vill göra ett tvåsidigt test måste det beräknade p-värdet fördubblas.
7.3.3 Nonparametric Mann-Whitney test Mann-Whitney Test and CI: Stål A; Stål B N Median Stål A 5 346,00 Stål B 6 292,50 Point estimate for η1 - η2 is 53,00 96,4 Percent CI for η1 - η2 is (4,99;129,99) W = 43,0 Test of η1 = η2 vs η1 > η2 is significant at 0,0112 Mann-Whitneys test kallas även Wilcoxons tvåstickprovstest eller Rangsummetest Stat Nonparamerics Mann-Whitney
7.4 The analysis of paired data t-tests Vi återvänder nu till de parametriska testen och normalfördelningsantagande. Ett krav vid de tidigare testen av två stickprov är att de inte beror på varandra. Exempel: Effekten av fysisk träning på halten av triglycerider studeras på tio försökspersoner. Triglyceriderna mättes precis före och precis efter ett träningspass. Försöksperson 1 2 3 4 5 6 7 8 9 10 Före träning 68 77 94 73 37 131 77 24 99 29 Efter träning 95 90 86 68 47 121 116 65 131 31 Föreligger det någon skillnad mellan triglyceridhalten före och efter träningspasset? (Triglycerider är en sorts fetter eller oljor som finns i blodet och kommer från den mat man äter, tillverkas inte i kroppen)
7.4 The analysis of paired data t-tests I det här exemplet beror de två stickproven (före och efter träning) på varandra. Är triglyceridhalten hög för en viss individ före träningen så är den är den troligen även hög efter träningen. 140 Scatterplot of Efter vs Före 120 100 Efter 80 60 40 20 20 40 60 80 Före 100 120 140 Correlation: Före; Efter Pearson correlation of Före and Efter = 0,826 P-Value = 0,003 Korrelationen är 0,826, dvs relativt hög.
7.4 The analysis of paired data t-tests Som vid tidigare jämförelse av två stickprov vill vi testa H 0 : Triglyceridhalten är lika före och efter H 1 : Halten är olika före och efter Det som är intressant att studera är de parvisa differenserna (förändringarna). Differens = Efter - Före. Vi kan konstatera att 3 av 10 differenser är negativa. Halten är högre efter, eller? Tillfälle Före Efter Differens 1 68 95 27 2 77 90 13 3 94 86-8 4 73 68-5 5 37 47 10 6 131 121-10 7 77 116 39 8 24 65 41 9 99 131 32 10 29 31 2
7.4 The analysis of paired data t-tests Vi kan inte styrka att data inte är normalfördelat.
7.4 The analysis of paired data t-tests One-Sample T: Differens Test of μ = 0 vs 0 Variable N Mean StDev SE Mean 95% CI T P Differens 10 14,10 19,52 6,17 (0,14; 28,06) 2,28 0,048 Vi kan statistiskt påvisa att Triglyceridhalten är olika före och efter träning. Eftersom konfidensintervallet bara innehåller positiva halter så kan vi dra slutsatsen att halten är högre efter än före.
7.4 The analysis of paired data t-tests Det finns en speciell meny i Minitab för parade data där vi slipper skapa differenserna själva. Stat Basic Statistics Paired t
7.4 The analysis of paired data t-tests Paired T-Test and CI: Före; Efter Paired T for Före - Efter N Mean StDev SE Mean Före 10 70,9 33,5 10,6 Efter 10 85,0 32,6 10,3 Difference 10-14,10 19,52 6,17 95% CI for mean difference: (-28,06; -0,14) T-Test of mean difference=0(vs 0): T-Value=-2,28 P-Value=0,048
7.4 The analysis of paired data sign test Vad gör vi om vi har parat data, men inte kan anta normalfördelning? Vi fortsätter med exemplet. Anta att vi inte vågar anta att differenserna är normalfördelade. Försöksperson 1 2 3 4 5 6 7 8 9 10 Före träning 68 77 94 73 37 131 77 24 99 29 Efter träning 95 90 86 68 47 121 116 65 131 31 Differens 27 13-8 -5 10-10 39 41 32 2 Vi konstaterade tidigare att 3 av 10 differenser är negativa. Om H 0 : Träningen påverkar inte triglyceridhalten är sann, är P( Positiv differens ) = P( Negativ differens ) = 0,5 (vi bortser från noll-differenser). Detta gäller oavsett mätvärdenas fördelning!
7.4 The analysis of paired data sign test Under H 0 är V = antal negativa differenser Bin(10, 0,5)-fördelad. Om vi har H 1 : Träning sänker triglyceridhalten, så blir p-värdet för testet P(V 3) = 0,1719, dvs H 0 kan inte förkastas. 0,25 Distribution Plot Binomial; n=10; p=0,5 0,20 Probability 0,15 0,10 0,05 0,1719 0,00 3 X 9
7.4 The analysis of paired data sign test Testet utnyttjar inte lika mycket information som vi gör vid t-test och blir därför svagare, men fördelen är att vi inte behöver göra några antaganden som kan vara tveksamma. Om vi endast fått 1 negativ differens hade vi förkastat H 0 på 5% signifikansnivå. 0,25 Distribution Plot Binomial; n=10; p=0,5 0,20 Probability 0,15 0,10 0,05 0,01074 0,00 1 X 9
7.4 The analysis of paired data sign test Om vi istället haft H 1 : Träning förändrar triglyceridhalten, så hade vi varit tvungna att även ta hänsyn till lika extrema resultat i andra svansen av fördelningen. p-värdet fördubblas till 0,3438 och givetvis kan inte H 0 förkastas nu heller. 0,25 Distribution Plot Binomial; n=10; p=0,5 0,20 Probability 0,15 0,10 0,05 0,1719 0,1719 0,00 3 X 7
7.4 The analysis of paired data sign test I Minitab finns ett speciellt kommando för teckentest Sign Test for Median: Differens Sign test of median = 0,00000 versus 0,00000 N Below Equal Above P Median Differens 10 3 0 7 0,3438 11,50 Stat Nonparamerics 1-sample sign