F22, Icke-parametriska metoder.

Relevanta dokument
2. Test av hypotes rörande medianen i en population.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

7.3.3 Nonparametric Mann-Whitney test

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

, s a. , s b. personer från Alingsås och n b

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Parade och oparade test

Fråga nr a b c d 2 D

Föreläsning G60 Statistiska metoder

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Hur man tolkar statistiska resultat

TMS136. Föreläsning 13

a) Facit till räkneseminarium 3

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 5 och 6.

Föreläsning 5. Kapitel 6, sid Inferens om en population

Gamla tentor (forts) ( x. x ) ) 2 x1

F3 Introduktion Stickprov

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning 12: Regression

Hypotestestning och repetition

Statistik 1 för biologer, logopeder och psykologer

Lektionsanteckningar 11-12: Normalfördelningen

FÖRELÄSNING 8:

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Avd. Matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Föreläsning 11: Mer om jämförelser och inferens

TMS136. Föreläsning 10

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning G60 Statistiska metoder

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Hur skriver man statistikavsnittet i en ansökan?


Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Avd. Matematisk statistik

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

TENTAMEN I STATISTIKENS GRUNDER 2

TMS136. Föreläsning 11

Uppgift a b c d e Vet inte Poäng

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

TENTAMEN I STATISTIKENS GRUNDER 2

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Föreläsning 5: Hypotesprövningar

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 12: Repetition

Samplingfördelningar 1

Medicinsk statistik II

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Repetitionsföreläsning

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Föreläsning 4: Konfidensintervall (forts.)

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

0 om x < 0, F X (x) = c x. 1 om x 2.

Medicinsk statistik II

Föreläsningsanteckningar till kapitel 9, del 2

10. Konfidensintervall vid två oberoende stickprov

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Introduktion och laboration : Minitab

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

σ 12 = 3.81± σ n = 0.12 n = = 0.12

Tentamen i Matematisk statistik Kurskod S0001M

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Transkript:

Icke-parametriska metoder F22, Icke-parametriska metoder. Christian Tallberg Statistiska institutionen Stockholms universitet Tidigare när vi utfört inferens, dvs utifrån stickprov gjort konfidensintervall eller hypotestest om okända populationsparametrar, har vi antagit att undersökningsvariablerna är normalfördelade. Vid stora stickprov har vi utnyttjat CGS, som säger att skattningarna av populationsparametrarna, dvs stickprovsmedelvärdena, är approximativt normalfördelade oavsett fördelningen för undersökningsvariablerna. Hur gör vi om vi har små stickprov och inte kan anta att variablerna är normalfördelade? Icke parametriska konfidensintervall och hypotestest. Inga modellantaganden om undersökningsvariablerna behövs. Ordinalskala tillräcklig, dvs det räcker om man kan rangordna mätvärdena. Numeriska värden ej nödvändiga. Konfidensintervallen blir längre och testfunktionerna vid hypotestest har sämre styrka jämfört med normalfördelningsintervall och normalfördelningstes om det är så att undersökningsvariablerna är normalfördelade. Man utnyttjar inte all information om mätvärdena (enbart ranger). Metoderna (konfidensintervallen och testfunktionerna) är robusta. Det vill säga längden på konfidensintervall eller utfallet av beslut vid hypotestest är inte känsligt för modellantaganden (t ex normalfördelade variabler, lika varianser). Teckentest Vi har parvisa observationer, dvs vi drar bara ett stickprov och får två mätvärden för varje individ. Vi har inte två oberoende stickprov, utan bildar därför differenser och anger om de är positiva eller negativa (jfr motsvarande parametriska test, Körner sid 212, exempel 16 ). Uppgift 1201 (Körner sid 324): Tio slumpmässigt valda personer poängsatte två diskmedelsso AochB,där var högsta betyget och 1 lägsta. Ger data stöd för att det ena diskmedlet är bättre än det andra?

Vi har följande data: Person 1 2 3 4 5 6 7 A 6 8 7 8 7 8 5 B 5 9 7 6 5 7 4 Diff + - 0 + + + + Vi har 5 plus och 1 minus-tecken. Nollorna stryks vid beräkningarna. Vi låter n vara lika med antal tecken då nollorna strykits. Definiera den stokastiska variabeln X = Antal minustecken (välj tecken man har minst av). Fördelningen för X är alltså X Bin (n; p), där p är sannolikheten för minus-tecken. Om vi har enbart slumpmässighet vid val av diskmedel är p = 0.5. Vi vill alltså testa följande hypoteser: H 0 : p =0.5 (Ingen skillnad i preferens) H 1 : p 6= 0.5 (Skillnad i preferens) Beroende på hur frågeställningen ser ut kan mothypoteserna också formuleras H 1 : p<0.5 (Diskmedel A är populärare) H 1 : p>0.5 (Diskmedel B är populärare). Testvariabeln och dess fördelning är X Bin (6; 0.5) då H 0 är sann. Under nollhypotesen är E(X) =np =6 0.5 =3. Test av median. Det observerade testvärdet är x = 1. Vi har att P värdet = 2Pr(X 1 då H 0 är sann, dvs p =0.5) = 2 0.94 = 0.219 För α = 0.05 kan nollhypotesen inte förkastas. Det kan inte anses statistiskt påvisat att det ena diskmedlet är bättre än det andra. Notera att om mothypotesen hade varit Diskmedel A är populärare hade p värdet blivit 0.94. Uppgift 1204 (Körner sid 324): Man vill undersöka om medianinkomsten i en stor population är större än 180000 kr. Slumpmässigt valdes n = 0 personer från populationen där 62 hade en inkomst över 180000. Definiera den stokastiska variabeln X = Antalmed inkomst över 180000. Fördelningen för X är alltså X Bin (n; p), där p är sannolikheten för inkomst över 180000. Om medianinkomsten är 180000 kr är det lika sannolikt att dra en individ med inkomst över som under 180000, dvs p = 0.5. Vi vill alltså testa följande hypoteser H 0 : p =0.5 (Medianink = 180000) H 1 : p>0.5 (Medianink> 180000)

Då nˆpˆq >5, är X approx N (np; np (1 p)) enl CGS. Då det observerade testvärdet i stickprovet är x = 62 ges p-värdet av Pr (X 62 H 0 är sann) = {norm.approx} µ 61.5 50 = Pr Z 5 = 1 Pr (Z <2.3) = 1 0.989 = 0.011. H 0 förkastas för alla α > 0.011. Det kan anses statistiskt påvisat att medianinkomsten är större än 180000 kr. Wilcoxons rangsummatest (Mann-Whitneys test) Vi har två oberoende stickprov från två populationer, och vill undersöka om det föreligger skillnader i populationsmedianerna m 1 och m 2 (jfr motsvarande parametriska test, Körner kap 8.6 sid 208). Från ena populationen drar vi ett slumpmässigt stickprov av observationer från den stokastiska variabeln X 1.Oberoendehärav drar vi från den andra populationen ett slumpmässigt stickprov av observationer från den stokastiska variabeln X 2. Vi antar att fördelningarna lika sånär som på läget. Vi vill därför testa H 0 : m 1 = m 2 (Populationsmedianerna lika) mot något av följande alternativ H 1 : m 1 6= m 2 (Populationsmedianerna ej lika) H 1 : m 1 <m 2 H 1 : m 1 >m 2 Stickprovsstorlekarna är n 1 respektive n 2,där n 1 n 2. Fördelningen för testvariabeln då H 0 är sann får vi fram på följande sätt. Rangordna samtliga n 1 + n 2 observationer. Om två eller flera observationer har samma värde får de samma rangtal, nämligen medelvärdet av de rangtal de skulle fått om man hade kunnat skilja dem åt. Beräkna rangsummorna R 1 i det mindre stickprovet och R 2 idet större stickprovet. Om n 1 =2ochn 2 =3,är R 1 summan av två av dessa fem möjliga rangtal, 1, 2, 3, 4och5. Antal ³ möjliga sätt att välja två av dessa fem rangtal är 5 2 =. Detiomöjliga utfallen och motsvarande rangsummor R 1 blir: Utfall R 1 1, 2 3 1,3 4 1,4 5 1,5 6 2,3 5 2,4 6 2,5 7 3,4 7 3,5 8 4,5 9

Rangsumman R 1 är alltså vår testvariabel och sannolikheten för varje utfall är 1 om nollypotesen är sann, dvs fördelningsfunktionen för R 1 under nollhypotesen blir: Pr (R 1 3) = 1 Pr (R 1 4) = 2 Pr (R 1 5) = 4 Pr (R 1 6) = 6 Pr (R 1 7) = 8 Pr (R 1 8) = 9 Pr (R 1 9) = 1 Kritiska värden anges enbart i den vänstra svansen, dvs för låga värden på R 1.Noteraförst att fördelningen för R 1 är symmetrisk. Om R 1 <R 2 slår man direkt i tabellen. Om R 1 >R 2 måste man beräkna dess symmetrivärde R s ivänstra svansen på följande sätt Nollhypotesen förkastas om R 1 eller R s är mindre eller lika med det kritiska värdet. Vid ensidigt test ligger signifikansnivån α i vänstra svansen, vid dubbelsidigt test ligger α/2 i vänstra svansen. Uppgift 1205 (Körner sid 324): Man vill jämföra två undervisningsmetoder (experimentell och traditionell). Medför experimentundervisning bättre resultat än vanlig undervisning? Låt de stokastiska variablerna X 1 och X 2 vara resultaten från experimentell och traditionell undervisning, respektive. Fördelningarna för X 1 och X 2 antas vara lika förutom läget. R s = n 1 (n 1 + n 2 +1) R 1. Vi vill testa H 0 : m 1 = m 2 (Populationsmedianerna lika) H 1 : m 1 >m 2 (Populationsmedianen större för exp.und. för α = 0.05. Två slumpmässiga stickprov av storlek n 1 =8ochstorlekn 2 =12drasfrån X 1 och X 2. Det kritiska värdet enl. tabell 9 är 62. Vi har följande data: Exper. Trad Result Rangtal Result Rangtal 29 16 37 20 27 13.5 34 19 24 11 33 18 24 11 31 17 21 7 28 15 20 5.5 27 13.5 16 4 15 3 5 1 24 11 23 9 22 8 20 5.5 6 2 R 1 = 69 R 2 141 Då R 1 <R 2 blir 69 testvariabelns observerade värde. Då 69 > 62 kan nollhypotesen inte förkastas. Det kan inte anses statistiskt påvisat att medianresultatet för experimentundervisningen är högre än medianresultatet för traditionella undervisningen. Stora stickprov Om n 1 20 och n 2 20 är R 1 approx N (E (R 1 ),V (R 1 )), där väntevärde och varians är n E (R 1 ) = n 1 + n 2 +1 1 2 V (R 1 ) = n 1n 2 (n 1 + n 2 +1). 12

Föregående exempel: Vi har att E (R 1 ) = 8 8+12+1 =84 2 8 12 (8 + 12 + 1) V (R 1 ) = = 2016. 12 Om n 1 och n 2 hade varit större än 20 hade R 1 varit approximativt normalfördelad och p-värdet givits av P värde = Pr(R 1 62) Ã! = Pr 62 84 Z sqrt (2016) = Pr(Z 0.49) = 1 Pr (Z 0.49) = 1 0.6879 = 0.312. Då p-värdet är större än 5% kan H 0 ej förkastas.