π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Relevanta dokument
2. Test av hypotes rörande medianen i en population.

F22, Icke-parametriska metoder.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Föreläsning G60 Statistiska metoder

7.3.3 Nonparametric Mann-Whitney test

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning G60 Statistiska metoder

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

F3 Introduktion Stickprov

Hur man tolkar statistiska resultat

Föreläsningsanteckningar till kapitel 9, del 2

Statistik 1 för biologer, logopeder och psykologer

, s a. , s b. personer från Alingsås och n b

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

a) Facit till räkneseminarium 3

Gamla tentor (forts) ( x. x ) ) 2 x1

Parade och oparade test

TMS136. Föreläsning 13

Avd. Matematisk statistik

F9 SAMPLINGFÖRDELNINGAR (NCT

8 Inferens om väntevärdet (och variansen) av en fördelning

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Hypotestestning och repetition

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Avd. Matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Stockholms Universitet Statistiska institutionen Termeh Shafie

Lektionsanteckningar 11-12: Normalfördelningen

TAMS65 - Föreläsning 6 Hypotesprövning

Samplingfördelningar 1

Föreläsning 5 och 6.

Föreläsning 5: Hypotesprövningar

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Medicinsk statistik II

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

σ 12 = 3.81± σ n = 0.12 n = = 0.12

TAMS65 - Föreläsning 6 Hypotesprövning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Hur skriver man statistikavsnittet i en ansökan?

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Lufttorkat trä Ugnstorkat trä

Föreläsning 12: Regression

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Medicinsk statistik II

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

TMS136. Föreläsning 11

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Laboration 4 Statistiska test

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Laboration 4 Statistiska test Del I: Standardtest Del II: Styrkefubktion

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

TENTAMEN I STATISTIKENS GRUNDER 2

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen i Matematisk statistik Kurskod S0001M

OBS! Vi har nya rutiner.

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Föreläsning G60 Statistiska metoder

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

7.5 Experiment with a single factor having more than two levels

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 12, FMSF45 Hypotesprövning

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Fråga nr a b c d 2 D

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Transkript:

Stat. teori gk, vt 006, JW F0 ICKE-PARAMETRISKA TEST (NCT 13.1, 13.3-13.4) Or dlista till NCT Nonparametric Sign test Rank Teckentest Icke-parametrisk Teckentest Rang Teckentestet är formellt ingenting annat än ett test av nollhypotesen att π 0,5. Det nya är nu att testet kan användas i vissa situationer som vi inte har behandlat tidigare, varvid testet brukar kallas för teckentest. Situationerna är följande: 1. Test av skillnad mellan två populationer, när vi har parvist beroende (matchade) observationer och låg datanivå (nominal- eller ordinalskala). Vi ser först på teckentestet mer allmänt: Population (stor): varje objekt i populationen har antingen ett plustecken eller ett minustecken. π proportionen plustecken i populationen. Det numeriska värdet på π är okänt. Vi har ett slumpmässigt stickprov av n objekt från populationen. S antalet plustecken i stickprovet. Vi vill testa H 0 : π 0,5. Om H 0 är sann, så är S Bin(n; π 0,5), varav följer bl.a. att E(S H 0 sann) nπ n 0,5 Hur skall vi pröva H 0? Vi skiljer mellan fallen med stort och litet stickprov.. Tes t av hypotes rörande medianen i en population. 1 Litet stickprov, dvs n 0. Beräkna p-värde. Vid H 1 :π > 0,5: p-värde P(S S ob s π 0,5) Vid H 1 :π < 0,5: p-värde P(S S ob s π 0,5) Vid H 1 :π 0,5: p-värde P(S minst lika extremt som Sob s π 0,5) Minst lika extremt som S obs betyder: minst lika långt från 0,5n som S ob s (åt båda hållen). p-värden får vi med hjälp av Tab. eller 3 i NCT. Ex.: Sju personer (slumpmässigt utvalda från en viss population) fick sätta betyg på två diskmedel, A och B, på en skala från 1 till 10 (1 lägsta betyg, 10 högsta betyg). Person Diskm. 1 3 4 5 6 7 A 6 8 7 8 7 8 5 B 5 9 7 6 5 7 4 Vi frågar: Är det någon skillnad i preferens mellan de två diskmedlen i populationen? Här är det fråga om parvist beroende observationer. En typ av test som vi tidigare använt i liknande fall går ut på att man bildar en differens för varje person och testar om de observerade differenserna kan tänkas komma från en population av differenser med medelvärdet 0. Men ett sådant test är inte lämpligt här, därför att: Litet stickprov kräver normalfördelad population av differenser. Knappast uppfyllt här. Data är på ordinalskalenivå. Inte meningsfullt att beräkna medelvärden och varianser. Gör så här i stället: Se för varje person efter om personen tyckte att A var bättre än B eller tvärtom. Person Diskm. 1 3 4 5 6 7 A 6 8 7 8 7 8 5 B 5 9 7 6 5 7 4 Tecken + - 0 + + + + + betyder att A föredras framför B. - betyder att B föredras framför A. 0 betyder att båda anses likvärdiga 3 4

Nollorna (s.k. ties ) stryks (om de inte är alltför många). Vi räknar därför bara på de 6 återstående (n6). Låt S antal plus (S ob s5). Hypoteser: H 0 : π 0,5 där π är andelen i populationen, som föredrar A framför B (bland dem som har preferenser). Om H 0 är sann, så är S Bin(6; 0,5), med E(S H0 sann) nπ 6 0,5 3 Vid exempelvis signifikansnivån 5%, så kan vi inte förkasta nollhypotesen. Dvs. vi kan inte statistiskt påvisa (på 5% signifikansnivå) att något av diskmedlen föredras framför det andra i populationen. OBS Om vi i stället har en ensidig mothypotes, t.ex. att π > 0,5 (vad betyder det?), så får vi p-värde P(S 5 H 0 sann) 0,109 > 0,05 Så vi kan inte förkasta H 0 då heller. Dvs. vi kan inte påvisa att A föredras framför B i populationen. Ett observerat värde på S, som ligger långt från det under H 0 förväntade värdet 3 är en indikation på att H 0 inte är korrekt. (Mothypotesen är tvåsidig.) Eftersom S ob s 5, blir p-värde P(S 1 eller S 5 H 0 sann) P(S 1 H 0 sann) [Varför?] 0,109 [Tabell 3] 0,18 5 6 Stort stickprov, dvs. n > 0. Vi beräknar p-värden enligt samma princip som vid litet stickprov, med skillnaden att binomialfördelningen, Bin(n; 0,5), nu approximeras med en normalfördelning, N(µ n 0,5; n 0,5). I följande exempel används halvkorrektion. Ex.: Ett slumpmässigt utvalt stickprov på 100 barn får prova och jämföra två nya glassorter, Peanut Butter Ripple och Bubblegum Surprise. 56 föredrog BPR, 40 föredrog BS och 4 föredrog inte någon framför den andra. Är det någon skillnad i preferens mellan de två glassorterna i populationen? Vi stryker ties och räknar på n 96 observationer. Låt S antal PBR antal plus. Hypoteser: H 0 : π 0,5 där π är andelen i populationen, som föredrar PBR framför BS (bland dem som har preferenser). Om H 0 är sann, så är S Bin(96; 0,5), med E(S H 0 sann) nπ 96 0,5 48 Var (S H 0 sann) nπ(1-π) 96 0,5 4 Observerat värde på S, som ligger långt från det under H 0 förväntade värdet 48 är en indikation på att H 0 inte är korrekt. (Mothypotesen är tvåsidig.) Eftersom S ob s 56, blir p-värdet P(S 40 eller S 56 H 0 sann) P(S 40 H 0 sann) [Varför?] 40 + 0,5 48 Φ ( ) 4 Φ(-1,53) 0,0630 0,16 H 0 kan inte förkastas på 5% sign.-nivå. Ingen signifikant skillnad i fråga om preferens för de två glassorterna. 7 8

Alternativt kunde vi ha gjort så här (på samma sätt som vi gjort tidigare vid hypotesprövning av en proportion vid stora stickprov, och utan halvkorrektion): H 0 : π 0,5 (56/96) 0,5 1,63 0,5 0,5 96 H 0 kan inte förkastas på 5 % signifikansnivå.) Teckentestet kan också användas för att pröva en hypotes om en populationsmedian. Tillvägagångssättet framgår av följande exempel. Ex.: Pröva om medianinkoms ten i en stor population kan tänkas vara större än 10 000 kr. I ett slumpmässigt stickprov på 18 personer från populationen finner man att 14 stycken har en inkomst över 10 000, och 4 stycken en inkomst en inkomst under 10 000. Låt π andelen personer i populationen med inkomst mindre än 10 000. H 0 : π 0,5 (dvs. pop.-med. 10 000) H 1 : π < 0,5 (dvs. pop.-med. > 10 000) Låt S antalet personer i stickprovet med inkomst mindre än 10 000. Om H 0 är sann, så är S Bin(18; 0,5), och då är E(S H 0 sann) nπ 18 0,5 9 Lågt värde på S ob s ger anledning att förkasta H 0 till förmån för H 1. Vi har fått S ob s 4, och p- värdet blir p-värde P(S 4 H 0 sann) 0,015 [Tab. 3] H 0 förkastas på 5% (men inte på 1%) signifikansnivå. 9 10 Vid stora stickprov approximeras binomialfördelningen på vanligt sätt med eormalfördelning. Ex.: Slumpmässigt urval av 100 personer. 6 av dessa har en inkomst mindre än 180 000. Är populationens medianinkomst mindre än 180 000 kr? Låt π andelen personer i populationen med inkomst mindre än 180 000. H 0 : π 0,5 (dvs. pop.-med. 180 000) H 1 : π > 0,5 (dvs. pop.-med. < 180 000) Låt S antalet personer i stickprovet med inkomst mindre än 180 000. Om H 0 är sann, så är S Bin(100; 0,5), och då är Högt värde på S ob s ger anledning att förkasta H 0 till förmån för H 1. Vi har fått S ob s 6, och p- värdet blir p-värde P(S 6 H 0 sann) 1 P(S 61 H 0 sann) 61,5 50 1 Φ( ) 5 1 - Φ(,3) 0,0107 Eftersom p-värdet < 0,05, förkastas H 0 på 5% signifikansnivå (men inte på 1% signifikansnivå). E(S H 0 sann) nπ 100 0,5 50 Var (S H 0 sann) nπ(1-π) 100 0,5 5 11 1

Mann-Whitneys -test Oberoende stickprov från två olika populationer. Vi observerar värden på en kvantitativ variabel i vardera stickprovet. Stickprov 1: n 1 observationer från population 1 Stickprov : n observationer från population Om n 1 och n är stora kan vi testa ifall µ1 µ, dvs. ifall populationerna har samma medelvärde. (Testvariabel ) Om stickproven är små men kommer från populationer som är normalfördelade med lika varians, kan vi också testa ifall populationerna har samma medelvärde. (Testvariabel t ) x y ; s s x y + x y t x y 1 1 s p ( + ) x y Men om stickproven är s må och kommer från ickenormalfördelade populationer? Då kan vi använda Mann-Whitneys -test. Fast då är det egentligen något annorlunda hypoteser man testar: H 0 : De två populationerna har lika fördelning. H 1 : Den ena populationens fördelning är förskjuten i förhållande till den andra (men har för övrigt samma form). OBS Inga antaganden om vilken form fördelningarna har. Bara att fördelningarna har lika form i båda populationerna (fast kanske förskjutna i förhållande till varandra). (Ett annat test av samma hypoteser är Wilcoxons rangsummatest, som är helt likvärdigt med Mann- Whitneys -test. Båda leder alltid till samma resultat och är egentligen bara två olika sätt att göra samma sak.) 13 14 Mann-Whitneys beräknas på följande sätt: 1. Slå ihop båda stickproven och storleksordna alla n 1 +n observationer i det kombinerade stickprovet (från minsta till största värdet).. Låt den minsta observationen få rangtalet 1, den näst minsta rangtalet osv. till den största, som får rangtalet n 1 +n. (Om flera observationer har samma värde, så får de samma rangtal, nämligen medelvärdet av de rangtal de skulle ha fått ifall man kunnat skilja dem åt.) 3. Beräkna R 1 summan av rangtalen i stickprovet från population 1. 4. Beräkna såsom: ( n + R1 Testvariabeln i Mann-Whitneys test är: µ n där 1 n µ E( 0 sann) H n ( + n 1 Var( H 0 sann) Om både n 1 > 10 och n > 10, så är approximativt fördelad som N(0; 1), ifall H 0 är sann. Beslutsregeln vid 95% signifikansnivå är: H 1 : Pop. förskjuten uppåt H 0 förkastas om Z ob s < -1,645 H 1 : Pop. förskjuteeråt H 0 förkastas om Z ob s > 1,645 H 1 : Pop. förskjuten uppåt eller neråt H 0 förkastas om Z ob s > 1,96 15 16

Ex.: n 1 10 studenter slumpm. utvalda från kurs A och n 1 från kurs B tillfrågas om antal studietimmar per vecka. Är det någon skillnad mellan de båda kurserna i fråga om medianantalet studietimmar per vecka (givet att fördelningarna i övrigt har samma form)? Data: A 10 6 8 10 1 13 11 9 5 11 B 13 17 14 1 10 9 15 16 11 8 9 7 Storleksordna alla observationer och beräkna R 1. Timmar, storleksordnade Rangtal Kurs Rangtal, kurs A 5 1 A 1 6 A 7 3 B 8 4,5 A 4,5 8 4,5 B 9 7 A 7 9 7 B 9 7 B 10 10 A 10 10 10 A 10 10 10 B 11 13 A 13 11 13 A 13 11 13 B 1 15,5 A 15,5 1 15,5 B 13 17,5 A 17,5 13 17,5 B 14 19 B 15 0 B 16 1 B 17 B Summa 93,5R 1 17 18 Hypoteser: H 0 : Samma fördelning i båda pop. H 1 : Skillnad i fråga om läge (Tvåsidig mothypotes) Sign.-nivå: 5% Testvariabel: µ Beslutsregel: H 0 förkastas om Z ob s > 1,96. Resultat: ( + R µ 10 11 10 1 + 93,5 1 1 10 1 1 60 81,5 1 ( + n 1 10 1 3 30 1 Z obs 81,5 60 1,4 30 H 0 kan inte förkastas på 5% signifikansnivå. 19