SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015



Relevanta dokument
SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Föreläsning 12, FMSF45 Hypotesprövning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Matematisk statistik för B, K, N, BME och Kemister

Föreläsningsanteckningar till kapitel 9, del 2

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

TAMS65 - Föreläsning 6 Hypotesprövning

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TAMS65 - Föreläsning 6 Hypotesprövning

Konfidensintervall, Hypotestest

Matematisk statistik för B, K, N, BME och Kemister

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Matematisk statistik för B, K, N, BME och Kemister

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning G60 Statistiska metoder

Föreläsning 5: Hypotesprövningar

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Om statistisk hypotesprövning

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 11: Mer om jämförelser och inferens

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5. Kapitel 6, sid Inferens om en population

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Thomas Önskog 28/

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Lufttorkat trä Ugnstorkat trä

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Avd. Matematisk statistik

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Matematisk statistik för D, I, Π och Fysiker

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

F3 Introduktion Stickprov

Matematisk statistik för B, K, N, BME och Kemister

2. Test av hypotes rörande medianen i en population.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Laboration 4: Hypotesprövning och styrkefunktion

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

σ 12 = 3.81± σ n = 0.12 n = = 0.12

Kapitel 10 Hypotesprövning

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Föreläsning 12: Regression

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Avd. Matematisk statistik

Föreläsning 11, FMSF45 Konfidensintervall

Avd. Matematisk statistik

TMS136. Föreläsning 13

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

SF1901 Sannolikhetsteori och statistik I

Medicinsk statistik II

Avd. Matematisk statistik

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Avd. Matematisk statistik

Föreläsning 11, Matematisk statistik Π + E

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Hur man tolkar statistiska resultat

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

F9 Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

Föreläsning G60 Statistiska metoder

SF1901 Sannolikhetsteori och statistik I

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Avd. Matematisk statistik

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Avd. Matematisk statistik

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

SF1901: Övningshäfte

TMS136. Föreläsning 10

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Avd. Matematisk statistik

Föreläsning 12: Repetition

Repetition 2, inför tentamen

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

TMS136. Föreläsning 11

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

FÖRELÄSNING 8:

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Transkript:

SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 13 HYPOTESPRÖVNING. Tatjana Pavlenko 13 maj 2015

PLAN FÖR DAGENS FÖRELÄSNING Begrepp inom hypotesprövning (rep.) Tre metoder för att avgöra om H 0 ska förkastas. Styrkefunktionen (Kap. 13.4). Tillämpning på normalfördelning (Kap. 13.6). Användning av normalapproximation (Kap. 13.7).

BEGREPP INOM HYPOTESPRÖVNING (REP.). Vi betraktar den allmänna situationen: vi har ett stickprov x = (x 1,..., x n ) som är utfall av s. v. (X 1,..., X n ) från någon fördelning F X (x; θ). Vi vill testa en grundhypotes, eller nollhypotes, om θ: H 0 : θ = θ 0 mot en alternativ hypotes, H 1, som kan vara enkel, H 1 : θ = θ 1, eller sammansatt, t ex H 1 : θ > θ 0. En hypotes av typ H 1 : θ > θ 0 eller H 1 : θ < θ 0 är ensidig, medan H 1 : θ = θ 0 är tvåsidig.

BEGREPP INOM HYPOTESPRÖVNING (REP.). För att testa H 0 definierar vi först en test variabel eller teststorhet, t obs = t(x) som är en observation av motsvarande stickprovsvariabel t(x ). Vi kommer också att behöva testets signifikansnivån eller felrisk. Def: Med signifikansnivån, eller felrisken, α för ett test menas α = P(H 0 förkastas) om H 0 är sann. Testet utformas på så sätt att felrisken blit liten. Vanliga nivåer är α = 0.05, α = 0.01, α = 0.001. Jämför med felrisker vid konfidensintervall konstruktion!

TRE METODER FÖR ATT AVGÖRA OM H 0 SKA FÖRKASTAS. Testvariabelmetoden (rep.) Hitta en teststorhet t(x ) och till den ett kritiskt område C. Testet blir då: Om { tobs. C, förkasta H 0 t obs. / C, ej förkasta H 0, där det kritiska området C anpassas så att P(H 0 förkastas) = P(t(X ) C ) = α H 0 är sann och α är testets signifikansnivå som väljs på förhans. Tolkning: Om H 0 förkastas så föreligger det ett signifikant avvikelse från nollhypotesen H 0 på nivån α.

TRE METODER FÖR ATT AVGÖRA OM H 0 SKA FÖRKASTAS (FORTS.) Direktmetoden (rep.) Direktmetoden baseras också på testvariabel, med det kritiska området preciseras inte utan man avgör bara vilka värden på testvariabel som tyder på att H 1 är sann, t ex t(x ) C. Det direkta med direktmetoden är att vi räknar ut ett storhet som direkt kan jämföras med felrisken! Metoden går till på följande sätt: 1. Antag att H 0 är sann (dvs att det parametervärde den specificerar är det rätta värde). 2. Räkna under H 0 ut p-värdet = P(teststorhet blir minst lika extremt som observerat). 3. Om p-värde är mindre än α (ofta α = 0.05, 0.01, 0.001) så förkastas H 0 med felrisk α.

TRE METODER FÖR ATT AVGÖRA OM H 0 SKA FÖRKASTAS (FORTS.) Direktmetoden. Tolkning: Om p-värde är litet (ofta < än 0.05, 0.01 eller 0.001) så tror vi inte på H 0. p-värde ger alltså ett mått på hur orimlig H 0 är. Beslutsregel: om p-värde < α så förkastas H 0. Detta i termer av testvariabelmetoden betyder att t obs. hamnar i det kririska området C.

TRE METODER FÖR ATT AVGÖRA OM H 0 SKA FÖRKASTAS (FORTS.) Konfidensmetoden. Konfidensmetoden går till på följande sätt: 1. Bekäkna ett konfidensintervall I θ för parametern med samma felrisk som önskas för testet, dvs med konfidensgrad 1 α. 2. Förkasta H 0 : θ = θ 0 om θ 0 / I θ. Typen av konfidensintervall som ska beräknas beror på hur den alternativa hypotesen ser ut: om H 1 : θ = θ 0 ska I θ vara tvåsidigt, om H 1 : θ > θ 0 ska I θ vara ensidigt, nedåt begränsat, om H 1 : θ < θ 0 ska I θ vara ensidigt, uppåt begränsat Tolkning: under antagande att H 0 är sann, dvs θ 0 är den sanna parametervärde dvs testnivå är α. P(H 0 förkastas H 0 är sann) = P(t(X ) C ) = P(θ 0 / I θ ) = 1 (1 α) = α,

EXEMPEL: RATTONYKTERHET (FORTS. FRÅN FÖRRA FÖRELÄSNING) Gränsen för rattonykterhet är 2. Modell: antag att ett mättning i är en observation av X i = µ + ε i, där µ är den sanna halten, ε i N(0, σ) (ober. för i = 1,..., n) är mätfel där σ antas vara känd, låt σ = 0.04. För att avgöra om en person är skyldig till rattonykterhet kan man använda följande hypoteser: H 0 : H 1 : µ = 0.2 (oskyldig) µ > 0.2 (skyldig). Vi väljer felrisken, α = 0.001, dvs α = P(förkasta H 0 om H 0 är sann).

EXEMPEL: RATTONYKTERHET (FORTS.) Att H 0 förkastas innebär att vi finner enn peron skyldig och om H 0 är sann så är man oskyldig. Felrisk (signifikansnivån) blir alltså P(döma en oskyldig) = 0.001. Denna händelse inträffar i genomsnitt var tusende gång, dvs vi valde ganska låg felrisk. Tillämpning av de tre metoderna för att avgöra om H 0 ska förkastas i ex om rattonykterhet, på tavlan. Viktig! De tre metoderna för hypotesprövning är ekvivalenta, dvs ger alltid samma resultat. Detta gäller dock endast exakta test, inte alltid approximativa.

TVÅ TYP AV FEL VID HYPOTESPRÖVNING. Hur bra ett test skiljer H 0 från H 1? Det finns två olika fel (felslutsatser) som kan inträffa vid hypotesprövning. Det brukar kallas fel av första slaget: att förkasta H 0 trots att H 0 är sann, (typ I-felet, den valda felrisken eller signifikansnivårn, α) fel av andra slaget: att inte förkasta H 0 trots att H 1 är sann, (typ II-felet). Exempel: Test förmåga att förkasta H 0 då den inte är sann, t ex hur stor chans har man att klara sig om man är skyldig med en given promillehalt i exelmpel om rattonykterhet som togs upp? Vi ska i så fall räkna ut P(dömas med alkoholhalten µ) dvs, sannolikhet att dömas om µ är den sanna värde. För detta brukar man ange testets styrka som funktion av parameter µ (allmänt θ).

STYRKEFUNKTION. Def. Styrkefunktionen, h(θ), för ett test definieras som h(θ) = P(H 0 förkastas) om θ är det rätta parametersvärde. Ett test är bra om h(θ) är stor för alla θ H 1. och h(θ) är liten för alla θ H 0. Jmf. med felrisk, α, h(θ 0 ) = α. Exempel: studera testets styrkefunktion för rattonykterhet exempel, på tavlan.

TILLÄMPNING PÅ NORMALFÖRDELNING: ALLMÄNT Låt x 1,..., x n vara ett slumpmässigt stickprov från N(µ, σ). Vi vill testa H 0 : µ = µ 0 och använder testvariabel metoden. Då är testvariabel { ( x µ0 )/D om σ är känd, D = σ/ n u(x) = ( x µ 0 )/d om σ är okänd, d = s/ n Om H 0 är sann, är dessa kvoter observationer av s.v som är N(0, 1) respektive t(n 1) fördelad och vi får kritisk område C med hjälp av motsvarande λ- och t- kvantiler.

TILLÄMPNING PÅ NORMALFÖRDELNING: (FORTS.) Beslutsregel erhålls beroende på utseendet hos den alternativa hypotesen H 1 : (a) Om H 1 : µ = µ 0 (dvs tvåsidig alternativ), så förkastas H 0 om u(x) λ α/2, respektive om u(x) t α/2 (n 1). (b) Om H 1 : µ > µ 0 (dvs ensidig alternativ), så förkastas H 0 om u(x) > λ α, resp. u(x) > t α (n 1). (c) Om H 1 : µ < µ 0 (dvs ensidig alternativ), så förkastas H 0 om u(x) < λ α, resp. u(x) < t α (n 1).

ANVÄNDNING AV NORMALAPPROXIMATION. Har man approximativt normafördelad skattatre, dvs θ AsN(θ, D(θ )) då kan man använda testvariabel t(x ) = θ θ 0 D(θ ) om D(θ ) är känd. Om D(θ ) innehåller den parameter vi undersöker i H 0 då ska θ 0, dvs värden från H 0 användas, vilket ger D 0 (θ ) och testvariabeln Annars används t(x ) = θ θ 0 D(θ ). t(x ) = θ θ 0 d(θ ). Kvoten ovan antas ungefär normalfördelad så att man kan utföra ett test på samma sätt som under normalantagande. Viktig! λ-kvantilen används och H 0 förkastas på approximativt nivån α.