Kapitel 10 Hypotesprövning

Relevanta dokument
Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Föreläsning 5. Kapitel 6, sid Inferens om en population

Kapitel 9 Egenskaper hos punktskattare

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TMS136. Föreläsning 11

Föreläsningsanteckningar till kapitel 9, del 2

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

TMS136. Föreläsning 13

FÖRELÄSNING 8:

8 Inferens om väntevärdet (och variansen) av en fördelning

, s a. , s b. personer från Alingsås och n b

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning 11: Mer om jämförelser och inferens

Statistik 1 för biologer, logopeder och psykologer

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsning G60 Statistiska metoder

Laboration 4: Hypotesprövning och styrkefunktion

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Föreläsning 5: Hypotesprövningar

Föreläsning 12, FMSF45 Hypotesprövning

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Konfidensintervall, Hypotestest

TAMS65 - Föreläsning 6 Hypotesprövning

Hur man tolkar statistiska resultat

Matematisk statistik TMS064/TMS063 Tentamen

Hypotestest och fortsättning av skattningar och konfidensintervall

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TAMS65 - Föreläsning 6 Hypotesprövning

Matematisk statistik för B, K, N, BME och Kemister

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik KTH. Formelsamling i matematisk statistik

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Avd. Matematisk statistik

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

SF1901 Sannolikhetsteori och statistik I

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Avd. Matematisk statistik

, för 0 < x < θ; Uppgift 2

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

SF1901 Sannolikhetsteori och statistik I

TAMS17/TEN1 STATISTISK TEORI FK TENTAMEN ONSDAG 10/ KL

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Formel- och tabellsamling i matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

F3 Introduktion Stickprov

Avd. Matematisk statistik

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Avd. Matematisk statistik

Om statistisk hypotesprövning

Föreläsning 12: Repetition

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Avd. Matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

F22, Icke-parametriska metoder.

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Samplingfördelningar 1

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Thomas Önskog 28/

Föreläsning 11, Matematisk statistik Π + E

Repetition 2, inför tentamen

Exempel på tentamensuppgifter

2. Test av hypotes rörande medianen i en population.

Avd. Matematisk statistik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Tentamen i Sannolikhetslära och statistik, TNK069, , kl 8 13.

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Föreläsning 8: Konfidensintervall

Kapitel 5 Multivariata sannolikhetsfördelningar

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Lektionsanteckningar 11-12: Normalfördelningen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

TMS136: Dataanalys och statistik Tentamen

Matematisk statistik för B, K, N, BME och Kemister

f(x) = 2 x2, 1 < x < 2.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning G60 Statistiska metoder

Transkript:

Sannolikhetslära och inferens II Kapitel 10 Hypotesprövning 1

Vad innebär hypotesprövning? Statistisk inferens kan utföras genom att ställa upp hypoteser angående en eller flera av populationens parametrar. Med ett hypotestest för en parameter θ kan vi undersöka rimligheten i antagandet att värdet på parametern är H 0 : θ=θ 0. Denna nollhypotes ställs sedan mot en mothypotes. En mothypotes kan vara antingen enkel eller sammansatt. H a : θ=θ a är ett exempel på en enkel mothypotes H a : θ>θ 0 är ett exempel på en sammansatt mothypotes Uppgiften blir nu att utifrån ett stickprovsresultat besluta huruvida antagandet i nollhypotesen är rimligt. Om så är fallet accepteras nollhypotesen och annars förkastas nollhypotesen. 2

Testfunktion och kritiskt område En testfunktion är en regel som bestämmer för vilka stickprovsresultat nollhypotesen ska förkastas. Den samling stickprov för vilka testfunktionen anger att nollhypotesen ska förkastas utgör det kritiska området (eller förkastelseområdet) som betecknas C (eller RR i boken). Den sannolikhetsmässiga storleken på det kritiska området bestäms av signifikansnivån α som anger risken för ett Typ1-fel. Testfunktionen är en statistika. För att det enkelt ska gå att avgöra vilka stickprov som tillhör det kritiska området bör dess samplingfördelning vara enkel att hantera (åtminstone då θ=θ 0 ). 3

Exempel: Hypotesprövning angående μ vid normalfördelad population Låt X₁,X₂,,X n vara olfsv N(μ,σ) med σ känd. Betrakta H 0 : μ=μ 0 som ställs mot H a : μ>μ 0. Det känns rimligt att förkasta nollhypotesen för stickprov där stickprovsmedelvärdet x är klart större än μ 0. Betrakta därför Z är en tillsynes perfekt testfunktion. 1. Z mäter avståndet mellan X och μ 0. Det verkar således rimligt att förkasta nollhypotesen då Z blir stor. 2. Z är N(0,1) då nollhypotesen är sann, dvs då μ=μ 0. Med en signifikansnivå på α=0.05 följer det kritiska området via 4

Testets styrka Vi söker en metod för att finna testfunktion och kritiskt område. För fix signifikansnivå α finns vanligtvis ett mycket stort antal potentiella kritiska områden. Vilket är det bästa? Definition. Styrkefunktionen för ett test är sannolikheten att förkasta nollhypotesen mätt för olika värden på θ, dvs Följaktligen gäller att power(θ 0 ) = α. Låt θ a vara ett värde på θ i H a. Vi vill då förstås att power(θ a ) blir så stor som möjligt. 5

Bästa kritiska område och MP-test Definition. Betrakta ett test med mothypotesen H a : θ=θ a där C är ett kritiskt område med signifikansnivå α. C sägs vara det bästa kritiska området (av storlek α) om det för varje annat kritiskt område C* (av storlek α) gäller att Definition. Det test som använder det bästa kritiska området sägs vara ett MP-test (Most Powerful). Hur ska vi då gå tillväga för att finna det bästa kritiska området? Låt oss successivt välja punkter (x₁,x₂,,x n ) till C. Hur bör dessa punkter väljas? 6

Bästa kritiska område och MP-test Betrakta likelihoodfunktionen L(θ). Det verkar rimligt att vi för vårt kritiska område först väljer punkter (x₁,x₂,,x n ) där kvoten L(θ 0 )/L(θ a ) antar ett så litet värde som möjligt. Fortsätt sedan att välja punkter på detta sätt tills signifikansnivån α är förbrukad. Det bästa kritiska området bör således bestå av samtliga punkter (x₁,x₂,,x n ) för vilka det gäller att där konstanten k följer av signifikansnivån α. 7

Neyman-Pearsons lemma Sats (Neyman-Pearsons lemma). Betrakta ett test H 0 : θ=θ 0 H a : θ=θ a Låt C vara ett kritiskt område med signifikansnivå α. Låt vidare C vara konstruerat av alla stickprovspunkter (x₁,x₂,,x n ) sådana att det för någon konstant k gäller att Då gäller att C är det bästa kritiska området och det test som använder C som kritiskt område är ett MP-test. 8

Neyman-Pearsons lemma Bevis. Låt C och C* vara kritiska områden av storlek α där C är konstruerad enligt principen att L(θ 0 )/L(θ a )<1/k. Definition av kritiskt område ger att Vi måste nu visa att För att göra detta studerar vi C och C* grafiskt med ett Venn-diagram 9

Neyman-Pearsons lemma C C* 10

Neyman-Pearsons lemma Detta leder till att 11

UMP-test Definition. Betrakta ett hypotestest angående θ där mothypotesen är en sammansatt hypotes. H 0 : θ=θ 0 H a : θ>θ 0 Om det kritiska området C är det bästa kritiska området (av storlek α) för varje enkel mothypotes H a : θ=θ a där θ a > θ 0 sägs C vara ett likformigt bästa kritiska område. Det test som då använder C som kritiskt området sägs vara UMP-test (Uniformly Most Powerful). 12

Metod för att bestämma bästa kritiska område 1. Bestäm för den aktuella sannolikhetsfördelningen ett uttryck för likelihoodfunktionen L(θ). 2. Bestäm utifrån L(θ 0 ) och L(θ a ) ett uttryck för L(θ 0 )/L(θ a ) < k. 3. Uttrycket ovan blir vanligtvis enklare att hantera efter logaritmering, dvs finn ett uttryck för ln[l(θ 0 )/L(θ a )] < ln k. 4. Det aktuella uttrycket skrivs om så att stickprovsinformationen, dvs den statistika som ska ligga till grund för testfunktionen, står i vänsterledet och en konstant (med komplicerat utseende) står i högerledet. 5. Undersök möjligheten att modifiera statistikan så att den får en hanterbar samplingfördelning. Denna modifiering blir i så fall vår testfunktion. 6. Utifrån testfunktionens samplingfördelning och signifikansnivån α bestäms ett uttryck för det bästa kritiska området. Om utseende på detta kritiska område inte beror på θ a har vi ett UMP-test. 13

Uppgift 10.101 Låt Y₁,Y₂,,Y n vara oberoende och likafördelade Exp(θ). Låt θ a < θ 0 och betrakta hypoteserna H 0 : θ=θ 0 H a : θ=θ a Bestäm bästa kritiska område med signifikansnivå α. 1. Likelihoodfunktionen för ett slumpmässigt stickprov från Exp(θ) ges av 14

Uppgift 10.101 2. Detta innebär att den sökta kvoten får utseendet 3. Vi logaritmerar för att få ett uttryck som är lättare att hantera. 15

Uppgift 10.101 4. Vi skriver nu om uttrycket så att stickprovsinformationen, dvs statistikan, står ensam i vänsterledet. Observera att olikheten får sitt utseende pga att θ a < θ 0. För att konstruera vårt kritiska område ska vi alltså utgå från statistikan ΣY i. 16

Uppgift 10.101 5. Vi betraktar statistikan ΣY i. Då nollhypotesen är sann är dess samplingfördelning Ga(n,θ 0 ). Vi modifierar (se uppg 6.46) Det följer att W är χ 2 -fördelad med 2n frihetsgrader då nollhypotesen är sann. Detta innebär att W utgör en utmärkt testfunktion för detta test. 6. Eftersom det kritiska område vi får via W inte beror på θ a är det test som använder W ett UMP-test för H a : θ<θ 0. 17

Tentauppgift (4:100424) Problem. Den diskreta slumpvariabeln X har följande fördelning Vi tänker nu testa H 0 :θ=0.3 mot alternativet H a :θ=0.4 med hjälp av endast en observation på X. Vad blir det kritiska området (förkastelseområdet) för ett test med maximal styrka om den använda signifikansnivån ska vara maximalt 10%? Motivera. 18

Tentauppgift (4:100424) Lösning. Enligt Neyman-Pearson lemma får vi maximal styrka om det kritiska området endast innehåller punkter sådana att där konstanten k bestäms av signifikansnivån. Det finns bara fyra tänkbara stickprovspunkter vilket innebär att vi kan ställa upp dom på följande sätt. 19

Tentauppgift (4:100424) I och med att maximal signifikansnivå är 10% följer således att och den faktiska signifikansnivån för testet blir därmed 20