2. Test av hypotes rörande medianen i en population.

Relevanta dokument
π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

F22, Icke-parametriska metoder.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

7.3.3 Nonparametric Mann-Whitney test

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning G60 Statistiska metoder

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

F3 Introduktion Stickprov

F9 SAMPLINGFÖRDELNINGAR (NCT

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Föreläsningsanteckningar till kapitel 9, del 2

, s a. , s b. personer från Alingsås och n b

Hur man tolkar statistiska resultat

Samplingfördelningar 1

Parade och oparade test

Statistik 1 för biologer, logopeder och psykologer

Avd. Matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning G60 Statistiska metoder

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

TMS136. Föreläsning 13

Gamla tentor (forts) ( x. x ) ) 2 x1

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

a) Facit till räkneseminarium 3

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Avd. Matematisk statistik

TMS136. Föreläsning 11

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Regression

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Lektionsanteckningar 11-12: Normalfördelningen

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Hypotestestning och repetition

Stockholms Universitet Statistiska institutionen Termeh Shafie

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Hur skriver man statistikavsnittet i en ansökan?

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Medicinsk statistik II

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Föreläsning 5 och 6.

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

σ 12 = 3.81± σ n = 0.12 n = = 0.12

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Lufttorkat trä Ugnstorkat trä

Föreläsning 5: Hypotesprövningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Medicinsk statistik II

Laboration 4 Statistiska test

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski


TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tentamen i Matematisk statistik Kurskod S0001M

FÖRELÄSNING 8:

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

7.5 Experiment with a single factor having more than two levels

TENTAMEN I STATISTIKENS GRUNDER 2

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Laboration 4 Statistiska test Del I: Standardtest Del II: Styrkefubktion

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Uppgift a b c d e Vet inte Poäng

Föreläsning G60 Statistiska metoder

TAMS65 - Föreläsning 6 Hypotesprövning

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Laboration 2: Statistisk hypotesprövning

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Föreläsning 11: Mer om jämförelser och inferens

Transkript:

Stat. teori gk, ht 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 15.1, 15.3-15.4) Ordlista till NCT Nonparametric Sign test Rank Icke-parametrisk Teckentest Rang Teckentest Teckentestet är formellt ingenting annat än ett test av nollhypotesen att P 0,5. Det nya är nu att testet kan användas i vissa situationer som vi inte har behandlat tidigare, varvid testet brukar kallas för teckentest. Situationerna är följande: 1. Test av skillnad mellan två populationer, när vi har parvist beroende (matchade) observationer och låg datanivå (nominal- eller ordinalskala).. Test av hypotes rörande medianen i en population. 1

Vi ser först på teckentestet mer allmänt: Varje objekt i populationen tänks kodad med antingen ett plustecken eller ett minustecken. P proportionen plustecken i populationen. Det numeriska värdet på P är okänt. Vi har ett slumpmässigt stickprov av n objekt från populationen. S antalet plustecken i stickprovet. Vi vill testa H 0 : P 0,5. Om H 0 är sann, så är S en binomialfördelad stok. variabel, Bin(n; P 0,5). Bl.a. gäller då att E(S H 0 sann) np n 0,5 Hur skall vi pröva H 0? Vi skiljer mellan fallen med stort och litet stickprov.

Litet stickprov, dvs n 0. Beräkna p-värde. Vid H 1 : P>0,5: p-värde P(S S obs P 0,5) Vid H 1 : P<0,5: p-värde P(S S obs P 0,5) Vid H 1 : P 0,5: p-värde (p-värde ovan) p-värden beräknas med hjälp av Tab. eller 3 i NCT. Ex.: Sju personer (slumpmässigt utvalda från en viss population) fick sätta betyg på två diskmedel, A och B, på en skala från 1 till 10 (1 lägsta betyg, 10 högsta betyg). Person Diskm. 1 3 4 5 6 7 A 6 8 7 8 7 8 5 B 5 9 7 6 5 7 4 Vi frågar: Är det någon skillnad i preferens mellan de två diskmedlen i populationen? 3

Här är det fråga om parvist beroende observationer. En typ av test som vi tidigare använt i liknande fall går ut på att man bildar en differens för varje person och testar om de observerade differenserna kan tänkas komma från en population av differenser med medelvärdet 0. Men ett sådant test är inte lämpligt här, därför att: Litet stickprov kräver normalfördelad population av differenser. Knappast uppfyllt här. Data är på ordinalskalenivå. Inte meningsfullt att beräkna medelvärden och varianser. Gör så här i stället: Se för varje person efter om personen tyckte att A var bättre än B eller tvärtom. Person Diskm. 1 3 4 5 6 7 A 6 8 7 8 7 8 5 B 5 9 7 6 5 7 4 Tecken + - 0 + + + + + betyder att A föredras framför B. - betyder att B föredras framför A. 0 betyder att båda anses likvärdiga 4

Nollorna (s.k. ties ) stryks (om de inte är alltför många). Vi räknar därför bara på de 6 återstående (n6). Låt S antal plus (S obs 5). Hypoteser: H 0 : P 0,5 H 1 : P 0,5 där P är andelen i populationen, som föredrar A framför B (bland dem som har preferenser). Om H 0 är sann, så är S Bin(6; 0,5), med E(S H 0 sann) n P 0 6 0,5 3 Ett observerat värde på S, som ligger långt från det under H 0 förväntade värdet 3 är en indikation på att H 0 inte är korrekt. (Mothypotesen är här tvåsidig.) Eftersom S obs 5, blir p-värde P(S 1 eller S 5 H 0 sann) P(S 1 H 0 sann) [Varför?] 0,109 [Tabell 3] 0,18 5

Vid exempelvis signifikansnivån 5%, så kan vi inte förkasta nollhypotesen. Dvs. vi kan inte statistiskt påvisa (på 5% signifikansnivå) att något av diskmedlen föredras framför det andra i populationen. OBS Om vi i stället har en ensidig mothypotes, t.ex. att P > 0,5 (vad betyder det?), så får vi p-värde P(S 5 H 0 sann) 0,109 > 0,05 Så vi kan inte förkasta H 0 då heller. Dvs. vi kan inte påvisa att A föredras framför B i populationen. 6

Stort stickprov, dvs. n > 0. Vi beräknar p-värden enligt samma princip som vid litet stickprov, med skillnaden att binomialfördelningen, Bin(n; 0,5), nu approximeras med en normalfördelning, N(µ n 0,5; σ n 0,5). I följande exempel används halvkorrektion. Ex.: Ett slumpmässigt utvalt stickprov på 100 barn får prova och jämföra två nya glassorter, Peanut Butter Ripple och Bubblegum Surprise. 56 föredrog PBR, 40 föredrog BS och 4 föredrog inte någon framför den andra. Är det någon skillnad i preferens mellan de två glassorterna i populationen? Vi stryker ties och räknar på n 96 observationer. + betyder föredrar PBR - betyder föredrar BS. P andelen + i populationen, dvs. andelen som föredrar PBR framför BS (bland dem som har preferenser). Vi har observerat pˆ 56/96 7

Vi kan nu göra så här (på samma sätt som vi gjort tidigare vid hypotesprövning av en proportion vid stora stickprov): Hypoteser: H 0 : P 0,5 H 1 : P 0,5 Testvariabel: Z pˆ P0 P0 (1 P0 ) n (56/96) 0,5 Resultat: Z obs 1, 63 0,5 0,5 96 H 0 kan t.ex. inte förkastas på 5 % signifikansnivå, eftersom Z obs inte ligger utanför gränserna ± 1,96. Teckentestet kan också användas för att pröva en hypotes om en populationsmedian. Vi går inte igenom detta. 8

Mann-Whitneys U-test Oberoende stickprov från två olika populationer. Vi observerar värden på en kvantitativ variabel i vardera stickprovet. Stickprov 1: n 1 observationer från population 1 Stickprov : n observationer från population Om n 1 och n är stora kan vi testa ifall µ 1 µ, dvs. ifall populationerna har samma medelvärde. (Testvariabel Z se nedan) Om stickproven är små men kommer från populationer som är normalfördelade med lika varians, kan vi också testa ifall populationerna har samma medelvärde. (Testvariabel t se nedan) Z x y ; s s x y + n n x y t s p x 1 ( n x y + 1 n y ) 9

Men om stickproven är små och kommer från ickenormalfördelade populationer? Då kan vi använda Mann-Whitneys U-test. Fast då är det egentligen något annorlunda hypoteser man testar: H 0 : De två populationerna har lika fördelning. H 1 : Den ena populationens fördelning är förskjuten i förhållande till den andra (men har för övrigt samma form). OBS Inga antaganden om vilken form fördelningarna har. Bara att fördelningarna har lika form i båda populationerna (fast kanske förskjutna i förhållande till varandra). (Ett annat test av samma hypoteser är Wilcoxons rangsummatest, som är helt likvärdigt med Mann- Whitneys U-test. Båda leder alltid till samma resultat och är egentligen bara två olika sätt att göra samma sak.) 10

Mann-Whitneys U beräknas på följande sätt: 1. Slå ihop båda stickproven och storleksordna alla n 1 +n observationer i det kombinerade stickprovet (från minsta till största värdet).. Låt den minsta observationen få rangtalet 1, den näst minsta rangtalet osv. till den största, som får rangtalet n 1 +n. (Om flera observationer har samma värde, så får de samma rangtal, nämligen medelvärdet av de rangtal de skulle ha fått ifall man kunnat skilja dem åt.) 3. Beräkna R 1 summan av rangtalen i stickprovet från population 1. 4. Beräkna U såsom: U n n 1 + n 1 ( n1 + 1) R 1 11

Testvariabeln i Mann-Whitneys test är: Z U µ U σ U n där 1 n µ U E( U 0 sann) H σ n n ( n1 + n 1 + 1) 1 U Var( U H 0 sann) Om både n 1 > 10 och n > 10, så är U approximativt fördelad som N(0; 1), ifall H 0 är sann. Beslutsregeln vid 95% signifikansnivå är: Dubbelsidig H 1 : Pop. förskjuten uppåt eller neråt. Beslutsregel: H 0 förkastas om Z obs > 1,96. Enkelsidig H 1 : Pop. förskjuten uppåt. Beslutsregel: H 0 förkastas om Z obs < -1,645. Enkelsidig H 1 : Pop. förskjuten neråt. Beslutsregel: H 0 förkastas om Z obs > 1,645. 1

Ex. (NCT Ex. 15.6): n 1 10 studenter slumpm. utvalda från kurs A och n 1 från kurs B tillfrågas om antal studietimmar per vecka. Är det någon skillnad mellan de båda kurserna i fråga om medianantalet studietimmar per vecka (givet att fördelningarna i övrigt har samma form)? Data: A 10 6 8 10 1 13 11 9 5 11 B 13 17 14 1 10 9 15 16 11 8 9 7 Storleksordna alla observationer och beräkna R 1. 13

Timmar, storleksordnade Rangtal Kurs Rangtal, kurs A 5 1 A 1 6 A 7 3 B 8 4,5 A 4,5 8 4,5 B 9 7 A 7 9 7 B 9 7 B 10 10 A 10 10 10 A 10 10 10 B 11 13 A 13 11 13 A 13 11 13 B 1 15,5 A 15,5 1 15,5 B 13 17,5 A 17,5 13 17,5 B 14 19 B 15 0 B 16 1 B 17 B Summa 93,5R 1 14

Hypoteser: H 0 : Samma fördelning i båda pop. H 1 : Skillnad i fråga om läge (Dubbelsidig mothypotes) Sign.-nivå: 5% Testvariabel: Z U µ U σ U Beslutsregel: H 0 förkastas om Z obs > 1,96. Resultat: n1 ( n1 + 1) 10 11 U n1 n + R1 10 1 + 93,5 81,5 µ U n n 10 1 1 60 σ U n n 1 n1 + n 1 ( + 1) 10 1 3 1 30 Z obs 81,5 60 30 1,4 H 0 kan inte förkastas på 5% signifikansnivå. 15