Föreläsning 5 och 6.

Relevanta dokument
F22, Icke-parametriska metoder.

Parade och oparade test

Föreläsning 11: Mer om jämförelser och inferens

2. Test av hypotes rörande medianen i en population.

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

7.3.3 Nonparametric Mann-Whitney test

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 12: Regression

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Föreläsning 12, FMSF45 Hypotesprövning

8 Inferens om väntevärdet (och variansen) av en fördelning

Avd. Matematisk statistik

Avd. Matematisk statistik

F9 Konfidensintervall

Medicinsk statistik II

Hypotestestning och repetition

Statistik och epidemiologi T5

FÖRELÄSNING 7:

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Föreläsning 7. Statistikens grunder.

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Föreläsning 5: Hypotesprövningar

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

TAMS38 - Föreläsning 4 Icke-parametriska metoder. Kursansvarig/examinator: Martin Singull Föreläsningar: Jolanta Pielaszkiewicz

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

a) Facit till räkneseminarium 3

Att välja statistisk metod

Introduktion och laboration : Minitab

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Laboration 2: Statistisk hypotesprövning

Föreläsning 4: Konfidensintervall (forts.)

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Thomas Önskog 28/

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TAMS65 - Föreläsning 6 Hypotesprövning

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

FÖRELÄSNING 8:

Fråga nr a b c d 2 D

Individ nr Första testet Sista testet

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

TAMS65 - Föreläsning 12 Test av fördelning

TAMS65 - Föreläsning 6 Hypotesprövning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Hur man tolkar statistiska resultat

TMS136. Föreläsning 13

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Mer om konfidensintervall + repetition

Lufttorkat trä Ugnstorkat trä

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

, s a. , s b. personer från Alingsås och n b

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Föreläsningsanteckningar till kapitel 9, del 2

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 5. Kapitel 6, sid Inferens om en population

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

TENTAMEN I STATISTIKENS GRUNDER 2

Kapitel 10 Hypotesprövning

Statistik och epidemiologi T5

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Repetitionsföreläsning

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning G60 Statistiska metoder

Matematisk statistik för B, K, N, BME och Kemister

1 10 e 1 10 x dx = e 1 10 T = p = P(ξ < 3) = 1 e P(η 2) = 1 P(η = 0) P(η = 1) = 1 (1 p) 7 7p(1 p) 6 0.

Statistik 1 för biologer, logopeder och psykologer

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Uppgift a b c d e Vet inte Poäng

Tenta i Statistisk analys, 15 december 2004

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Tentamen MVE300 Sannolikhet, statistik och risk

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Datorövning 1: Fördelningar

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Lektionsanteckningar 11-12: Normalfördelningen

Avd. Matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Transkript:

Föreläsning 5 och 6. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik för STS vt 2014

Icke-parametriska metoder Föreläsningarnas innehåll: Allmänt, icke-parametrisk inferens Wilcoxons rangsummetest (tecken-rangtest) Wilcoxons parvis ordnade test Teckentest Runtest Test av fördelningar: Shapiro Wilk, Anderson Darling Återsamplingsmetoder

Icke-parametriska metoder Överblick, icke-parametriska metoder: Data är inte kvantitativa, kan t.ex. utgöras av rangordning. Normalfördelning anses inte rimlig, skev fördelning. Används för statistiska hypotestest med direktmetoden, konfidensintervall produceras ej. Nackdel: Ofta ett trubbigare instrument vid statistiskt test.

Inledning: Ett konfidensintervall Betrakta ett ordnat stickprov x (1),..., x (n) där x (1) <... < x (n). Låt µ = E[X ], bilda konfidensintervallet I µ = [x (1), x (n) ]. Vilken konfidensgrad får detta intervall? [Tavlan]

Introduktion till Wilcoxontest: Brun utan sol Man kan skaffa sig solbränna trots ett bistert klimat på två sätt: (1) Lotion; (2) Solarium. Lotion är billigare, men solarium anses ge ett bättre resultat. I en statistikkurs i USA slumpades 5 deltagare ut: 3 personer fick använda lotion, 2 fick besöka solarium. Resultatet granskades och rangordnades på en skala: 1: Bäst solbränna; 5: Sämst solbränna. Hur kan man testa eventuell skillnad? Kan ett p-värde genereras? [Tavlan]

Summor av ranger C.F. Gauss (1777-1855) i skolan: N j = 1 + 2 + + N = j=1 N(N + 1) 2

Wilcoxons tvåstickprovstest Mann Whitneys test Två datamaterial A : x 1,..., x n1 och B : y 1,..., y n2. Rangordna samtliga N = n 1 + n 2 observationer och bilda Då gäller att R A = Rangsumman för A-observationerna, R B = Rangsumman för B-observationerna. R A + R B = 1 + 2 + + N = förutsatt att alla dubletter hanterats korrekt. N(N + 1) 2 Eftersom summan är konstant det ekivalent att basera testet på R A eller R B. Normalt väljs den som motsvarar det mindre stickprovet.

Wilcoxons tvåstickprovstest Mann Whitneys test Observationer: x 1,..., x n1 och y 1,..., y n2 är oberoende stickprov från de kontinuerliga fördelningarna F och G. Låt N = n 1 + n 2. Hypotes: H 0 : F = G Rangsumman r för x-stickprovet är en observation från R som under H 0 har N + 1 N + 1 E[R] = n 1, V[R] = n 1 n 2 2 12 Om n 1 7, n 2 7 är R appr. normalfördelad. Om dubletter förekommer, dvs. e olika värden som förekommer d 1, d 2,..., d e gånger blir V[R] = n 1 n 2 N + 1 12 R-rutin: wilcox.test n 1 n 2 12N(N + 1) e i=1 d i (d 2 i 1)

Exempel: Sandkorn Diametern hos sandkorn i två typer av sediment uppmättes. Är sandkornen från andra stickprovet stokastiskt större, dvs. P(X 1 > a) P(X 2 > a) för alla a med sträng olikhet för något a. Sedimenttyp 1: 0.63 0.17 0.35 0.49 0.18 0.43 0.12 0.20 0.47 1.36 0.51 0.45 0.84 0.32 0.40 Sedimenttyp 2: 1.13 0.54 0.96 0.26 0.39 0.88 0.92 0.53 1.01 0.48 0.89 1.07 1.11 0.58 Vy från Sandhammaren.

Exempel: Sandkorn Sorterade data: 0.12 0.17 0.18 0.20 0.26 0.32 0.35 0.39 0.40 0.43 I I I I II I I II I I 0.45 0.47 0.48 0.49 0.51 0.53 0.54 0.58 0.63 0.84 I I II I I II II II I I 0.88 0.89 0.92 0.96 1.01 1.07 1.11 1.13 1.36 II II II II II II II II I Rangsumma för sedimenttyp 1: 1 + 2 + 3 + 4 + 6 + + 20 + 29 = 162. Rangsumma för sedimenttyp 2: 5 + 8 + 13 + 16 + + 27 + 28 = 273.

Wilcoxons parade teckenrangtest Observationer: z 1, z 2,..., z n som är parvis differenser. Rangordna observationerna efter absolutbelopp och låt w vara rangsumman för de positiva observationerna. Rangsumman w är en observation av W som under H 0 har E[W ] = n(n + 1) n(n + 1)(2n + 1), V[W ] = 4 24 Om n är tillräckligt stort (n 12) är W appr. normalfördelad. Vid dubletter: V[W ] = R-rutin: wilcox.test n(n + 1)(2n + 1) 24 1 48 e i=1 d i (d 2 i 1)

Exempel: Teckenrangtest En ny katalysatorkomponent undersöks genom att koloxidnivån i avgasutsläppen mäts hos 24 bilar, först med ordinarie katalysator och sedan med den nya komponenten tillsatt. Differenserna (ordinarie ny komponent) befinns vara (i lämplig enhet): 1.1 2.4 1.8 1.2 3.4 0.7 4.1 1.0 2.5 1.2 2.4 1.3 2.3 1.3 1.9 1.7 3.9 1.6 4.4 0.5 2.7 1.2 1.2 3.4 Testa hypotesen H 0 : Den nya komponenten har ingen inverkan på koloxidnivån mot alternativet H 1 : Den nya komponenten minskar koloxidnivån. Alm & Britton, Exempel 8.15

Teckentest Situation: Parvis ordnat stickprov (x 1, y 1 ),..., (x n, y n ). Hypotes: H 0 : Samma fördelning för X och Y, H 1 : Fördelning förskjuten Inför z = Antal fall med x i y i > 0. Då gäller Z Bin(n, 1/2). Hypotestest: Direktmetoden, beräkna p-värde. Vid lika par: stryk paret. (Anm. 8.8) Alernativ tolkning: test av median. R-rutin: library(bsda), sign.test

Teckentest Några kommentarer: p-värdet blir större än i Wilcoxon tecken-rangtest Teckentestet har lägre styrka, dvs. inte samma förmåga att upptäcka signifikanta skillnader. Differenserna behöver inte uttryckas med siffror; räcker om de kan beskrivas som positiva eller negativa. Lägre styrka: priset man får betala för att inte göra några antaganden. Men testet kan alltid användas. Testet kan användas för att testa hypoteser om medianen i en kontinuerlig fördelning, eller andra kvantiler.

Helsingborgs rådhus. Exempel: Arkitekttävling Två arkitekter har gjort varsitt förslag, A och B, till nytt rådhus. Bland invånarna valdes slumpvis 11 att ingå i en kommitté som skulle bedöma förslagen. Resultat av bedömningen: 6 föredrog A, 3 föredrog B och 2 svarade vet ej. Är alternativ A populärast i populationen?

Exempel: Oktantal Datamaterial: 15 observationer av oktantal i bensin. 99.0 102.3 99.8 100.5 99.7 96.2 99.1 102.5 103.3 97.4 100.4 98.9 98.3 98.0 101.6 Testa på nivån 0.01 nollhypotesen att medianen µ = 98.0 mot att µ > 98.0.

Introduktion till likaföljdtest: Kasta mynt Kasta ett mynt som vi antar är välbalanserat 10 gånger, notera Krona (R) och Klave (L). Tre exempel på följder. Följd 1: Följd 2: Följd 3: R R R L L R L L R L R R R R R L L L L L R L R L R L R L R L Skattningen av sannolikheten för Krona densamma i samtliga fall. Ordningsföljden dock av olika struktur. Oberoende? Begreppet likaföljd (run) användbart: Följande sekvens har 5 likaföljder AAAA B AA BBBB A

Likaföljdtest (svit-test, run test) Föreligger slumpmässig ordning? Klustertendenser? Antag n 1 symboler av typ 1, n 2 av typ 2. Om n 1 10, n 2 10 gäller för att Z N(µ, σ 2 ) där Z = Totala antalet likaföljder µ = 2n 1n 2 n 1 + n 2 + 1, σ = 2n 1 n 2 (2n 1 n 2 n 1 n 2 ) (n 1 + n 2 ) 2 (n 1 + n 2 1)

Likaföljdtest (run tests) Jämnt antal symboler n = 2m. Exakt fördelning, direktmetoden: P(Z = 2k) = 2( )( m 1 m 1 ) k 1 k 1 ), P(Z = 2k + 1) = 2( )( m 1 m 1 ) k k 1 ( 2m ). m ( 2m m R-rutin: library(tseries), runs.test

Exempel: Produktion Vid en maskin tillverkas komponenter som kan uppfylla kvalitetskraven (K) eller vara felaktiga (F). Följande sekvens har registrerats: KKKKK FFFF KKKKKKKKKK FF KK FFFF Testa på signifikansnivån 0.01 att ordningsföljden är slumpmässig. [Tavlan]

Shapiro Wilk-test Hypotes: Teststorhet: H 0 : Normalfördelning råder ( n i=1 W = a ) 2 ix (i) n i=1 (x i x) 2 där x (i) utgör det ordnade stickprovet och a i är konstanter. Förkasta H 0 om W W α. Man har att 0 < W < 1. Värden nära 1: nära normalfördelning. R-rutin: shapiro.test

Anderson Darling-test Hypotes: H 0 : Data följer en viss fördelning Teststorhet: [ n ] A 2 = 1 (2i 1)(ln(u i ) + ln(1 u n+1 i )) n n i=1 där u i = F (x (i) ) är värdet av den teoretiska fördelningsfunktionen i den i:e största observationen x (i). Stora stickprov: Kritiskt värde 2.492 (α = 0.05); 3.857 (α = 0.01). R-rutin: library(nortest), ad.test (Testar mot normalfördelning)

Återsamplingsmetoder Oberoende stickprov x 1,..., x n från F (x; θ). Skattning: θ = θ (x 1,..., x n ). Empirisk fördelningsfunktion: F n (x). 1. Drag med återläggning n stycken obs från ursprungliga stickprovet x 1,..., x n. Kalla detta stickprov z 1,..., z n. 2. Beräkna θ B = θ (z 1,..., z n ). Upprepa steg (1) och (2) ett stort antal M gånger, resulterar i Beräkna θ B i, i = 1,..., M. θ B = 1 M M i=1 θ B i, s 2 θ B = 1 M 1 M (θi B θ B ) 2, i=1 finn kvantiler i det ordnade stickprovet θ B (1),..., θb (M).