SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Relevanta dokument
SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 12, FMSF45 Hypotesprövning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

Thomas Önskog 28/

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 11: Mer om jämförelser och inferens

Föreläsningsanteckningar till kapitel 9, del 2

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

F9 Konfidensintervall

Föreläsning 5: Hypotesprövningar

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Föreläsning 5. Kapitel 6, sid Inferens om en population

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Lufttorkat trä Ugnstorkat trä

10. Konfidensintervall vid två oberoende stickprov

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

Föreläsningsanteckningar till kapitel 8, del 2

Matematisk statistik för D, I, Π och Fysiker

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

TMS136. Föreläsning 13

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Matematisk statistik för B, K, N, BME och Kemister

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Avd. Matematisk statistik

Föreläsning 11, FMSF45 Konfidensintervall

Avd. Matematisk statistik

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

TMS136. Föreläsning 10

FÖRELÄSNING 7:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Avd. Matematisk statistik

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

F3 Introduktion Stickprov

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Föreläsning 4: Konfidensintervall (forts.)

Repetition 2, inför tentamen

Matematisk statistik för B, K, N, BME och Kemister

9. Konfidensintervall vid normalfördelning

Avd. Matematisk statistik

Föreläsning 11, Matematisk statistik Π + E

Avd. Matematisk statistik

FÖRELÄSNING 8:

Kapitel 10 Hypotesprövning

TMS136. Föreläsning 11

Konfidensintervall, Hypotestest

Avd. Matematisk statistik

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Avd. Matematisk statistik

Repetitionsföreläsning

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk Statistik, 7.5 hp

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning G60 Statistiska metoder

Om statistisk hypotesprövning

Mer om konfidensintervall + repetition

σ 12 = 3.81± σ n = 0.12 n = = 0.12

Avd. Matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

0 om x < 0, F X (x) = c x. 1 om x 2.

Laboration 4: Hypotesprövning och styrkefunktion

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Avd. Matematisk statistik

2. Test av hypotes rörande medianen i en population.

Statistik 1 för biologer, logopeder och psykologer

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Föreläsning 12: Regression

Formel- och tabellsamling i matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Avd. Matematisk statistik

Transkript:

SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 12 HYPOTESPRÖVNING. Tatjana Pavlenko 4 oktober 2016

PLAN FÖR DAGENS FÖRELÄSNING Intervallskattning med normalfördelade data: två stickprov (rep.) Intervallskattning med normalapproximation (Kap. 12.4) Begrepp inom hyptesprövning (Kap. 13.2-13.3). Testvariabel- och direktmetoden. Tillämpning på normalfördelning (Kap. 13.6).

INTERVALLSKATTNING MED NORMALFÖRDELADE DATA: TVÅ STICKPROV (REP.) Under förra föreläsning fick vi konfidensintervall för två typ av situationer med två stickprov. Två oberoende stickprov: I µ1 µ 2 dvs intervall för differensen mellan två väntevärdena hos två normalfördelningar N(µ 1, σ 1 ) och N(µ 2, σ 2 ) i fallen då 1. σ 1 och σ 2 var kända 2. σ 1 = σ 2 = σ och okänd. Stickprov i par: I, dvs intervall för systematisk skillnad baserat på differenser z i = x i y i, där x i och y i är oberoende observationer från N(µ, σ 1 ) respektive N(µ +, σ 2 ). Här kan standardavvikelserna σ 1 och σ 2 vara olika.

TVÅ OBEROENDE STICKPROV (REP.) T ex för fall 2 får vi: X Ȳ (µ 1 µ 2 ) S 1n1 + 1 n2 t(n 1 + n 2 2), Från formelsamling: 11.2 (a)+11.2 (d)+12.2 (t-metoden) I µ1 µ 2 = ( x ȳ ± t /2 (k)d), med d = s 1/n 1 + 1/n 2 och k = n 1 + n 2 2.

STICKPROV I PAR (REP.) Vi studerar n st objekt och på varje objekt gör mättningar före och efter... Detta ger data x1,..., x n som är obesrvationer av X i N(µ i, σ 1 ), ober. och y1,..., y n som är obesrvationer av Y i N(µ i +, σ 2 ), ober., i = 1,..., n. Vi tolkar som förändringen. Vi bygger z i = y i x i som betraktas som observationer av Z i = Y i X i N(, σ z med σ z = σ1 2 + σ2 2. Vidare Z N(, σ z n om σ z är känd, (formls. 11.1 (a)) Z S z / n t(n 1) om σ z är okänd, (formls. 11.1 (d)) Från formelsamling, med 11.1 (a)+11.1 (d)+12.2 (t-metoden) får vi ett konfidensintervall med konf. grad 1 α där d = s z / n. I = ( z ± t α/2 (n 1)d),

INTERVALLSKATTNING MED NORMALAPPROXIMATION. Idé: Vi har hittils studerat olika situationer där obrservationerna, och därmed även skattarre, är exakt normalfördelade. Men även om vi inte har stickprov från en normalfördelning, det mycket väll på grund av Centrala gränsvärdessatsen, kan vara så att vår skattare är approximativt normalfördelad. Vi kan i så fall tillämpa normalfördelningsteori, men istället för att få exakt konfidensgrad 1 α så får vi nöja oss med att att konfidensgrad blir approximativt 1 α.

INTERVALLSKATTNING MED NORMALAPPROXIMATION (FORT.). Låt x 1,..., x n vara ett stickprov från någon s.v. X med någon fördelning som beror på okänd parameter θ. Låt θ vara en punktskattare av θ sådan att θ AsN(θ, D). Om D är känd så får vi, på analogt sätt med λ-metoden konfidensintervall för θ I θ = (θ obs ± λ α/2 D). Oftast D är okänd och vi skattar den som tidigare med medelfelet d, villket innebär en ytterliggare approximation, men intervallet I θ = (θ obs ± λ α/2 d) är fortfarande ett konfidensintervall med approximativ konfidensgrad 1 α.

INTERVALLSKATTNING MED NORMALAPPROXIMATION (FORT.). Exempel (på tavlan): En tillverkare säljer komponenter i förpackningar med 50 komponenter i varje. Komponenterna är defekta med sannolikhet p oberoende av varandra. En kund köper en förpackning och konstaterar att 15 komponenter var defekta ( de övriga 35 var hela). Gör ett tvåsidigt 95% approximativt konfidensintervall för p. Svar: (0.17, 0.43).

HYPOTESPRÖVNING Då man konstruerar konfidenintervall vill man dra slutsatser om okända parametrar från data. Detta kan också kallas för singifikans test eller hypotesprövning. Vi börjar med Exempel: Skicklig slantslingning. En person (se bild på nästa sida) påstår sig vara tillräckligt fingerfärdig för att kunna påverka vilken sida som kommet upp vid slantslingning, så att han får krona oftare är klave, dvs med p = P(krona) > 1/2. Hur skulle kunna ett statsitiskt experiment och analys gå till? Vi är skeptiska mot hans påstående och vi är beredda att tro honom (dvs förkasta hypotesen att p = 1/2 om han får tillräckligt många krona.

SKICKLIG SLANTSLINGNING? FIGUR : Personen som inspirerade exempel ovan en amerikanske statistik professorn Persi Diaconis, som före statistikkarriären livnärde sig som magiker. Han har bl. a. gjort ingående studier av slantslingning. Läs mer om Persi Diaconis här https://www.quantamagazine.org/20150414-for-persi-diaconis-nextmagic-trick/ https: PersiDiaconis.pdf

SKICKLIG SLANTSLINGNING? (FORTS.) För att testa påståendet får personen göra 10 kast. Låt x vara antalet krona vid försöket. Vårt test bör då vara av typen: Förkasta hypotesen att p = 1/2 om x C för ett lämpligt vall av konstanten C. Vi vill välja C så att risken att vi av misstag förkastar hypotesen p = 1/2 blir liten. Vi noterar att x är en observation av en s.v. X Bin(10, p). Vi behöver alltå studera P(X C ) då p = 1/2 för olika värden på konstanten C.

SKICKLIG SLANTSLINGNING? (FORTS.) C = 10 ger C = 9 ger P(X C ) = P(X C ) = C = 8 ger P(X C ) = ( 10 10 ( ) ( 10 1 10 2 (( ) 10 + 10 ) ( 1 2 ) 10 + ( ) 10 + 9 ) 10 = 1 1024 0.000098. ( 10 9 ( 10 8 ) ( 1 2 )) ( 1 2 ) 10 = 11 1024 0.011. ) 10 = 56 1024 0.055. Om vi vill hålla felrisken liten (t ex. 0.05) verkar C = 9 vara ett rimligt val. Beslutsregel blir då att förkasta hypotesen att p = 1/2 om antalet krona är minst nio, och felrisken blir 1.1%.

BEGREPP INOM HYPOTESPRÖVNING. Vi betraktar den allmänna situationen: vi har ett stickprov x = (x 1,..., x n ) som är utfall av s. v. (X 1,..., X n ) från någon fördelning F X (x; θ). Vi vill testa en grundhypotes, eller nollhypotes, om θ: H 0 : θ = θ 0 mot en alternativ hypotes, H 1, som kan vara enkel, H 1 : θ = θ 1, eller sammansatt, t ex H 1 : θ > θ 0. En hypotes av typ H 1 : θ > θ 0 eller H 1 : θ < θ 0 är ensidig, medan H 1 : θ = θ 0 är tvåsidig. För att testa H 0 definierar vi först en test variabel eller teststorhet, t obs = t(x) som är en observation av motsvarande stickprovsvariabel t(x ). Vi kommer också att behöva testets signifikansnivån eller felrisk. Def: Med signifikansnivån, eller felrisken, α för ett test menas α = P(H 0 förkastas) om H 0 är sann. Testet utformas på så sätt att felrisken blit liten. Vanliga nivåer är α = 0.05, α = 0.01, α = 0.001. Jämför med felrisker vid konfidensintervall konstruktion!

TESTVARIABELMETODEN. Hitta en teststorhet t(x ) och till den ett kritiskt område C. Testet blir då: Om { tobs. C, förkasta H 0 t obs. / C, ej förkasta H 0, där det kritiska området C anpassas så att P(H 0 förkastas) = P(t(X ) C ) = α H 0 är sann och α är testets signifikansnivå som väljs på förhans. Tolkning: Om H 0 förkastas så föreligger det ett signifikant avvikelse från nollhypotesen H 0 på nivån α.

EXEMPEL: SKICKLIG SLANTSLINGNING? (FORTS.) Låt i detta fall x = 7 (dvs personen fick krona 7 ggr ut av 10 kast), x är en observation av X Bin(10, p). Vi låter nollhypotesen vara H 0 : p = p 0 = 1/2, dvs vi är skeptiska mot pesonens påstående att kunna påverka vilken sida som kommer upp vid slantsingling och tror att p = 1/2. Mothypotesen är H 1 : p > p 0, dvs personen kan påverka resultatet. Testet utförs på signifikansnivån α = 0.01.

EXEMPEL: SKICKLIG SLANTSLINGNING? (FORTS.) Vi har i detta fall en enda observation så att t obs = t(x) = x. C ska väljas så att följande uppfylls: P(H 0 förkastas) = P(T (X ) C ) = P(X C ) = α, om H 0 är sann, och vi väljer C = [x α, 10] där x α är 0.01-kvantilen för Bin(10, 0.5)-fördelningen. Om ett utfall x hamnar i kritisk område C så förkastas H 0 till förmån för H 1, dvs vi tror på att p är större än 1/2. Med hjälp av MATLAB får man x 0.01 -kvantilen enligt >> binoinv(0.99,10,0.5) ans = 9 Slutsats: Då personen fick 7, och x = 7 / C = [9, 10] så kan vi ej förkasta H 0 att p = 1/2.

EXEMPEL: TEST AV ASTROLOG. Detta exempel är baserat på ett verkligt fall. I Lund framlades en psykologuppsats (motsv exjobb) som påståds att horoskop ger information om personligheten. En astrolog påstår att han kan utläsa en persons framtid från utseendet på stjärnhimlen då personen föds. Astronomen från Chalmers, Curt Roslund organiserade ett experiment där 15 dömda mördare och 15 sekreterare väljs ut och astrologen får tillgång till bilder av stjärnhimlen då de 30 personerna föddes. Uppgiften beståd i att peka ut så många mördare som möjligt. Hur skulle en statistisk analys av experimentet gå till? Syftet är att konstruera ett test för att pröva hypotesen H 0 : H 1 : astrologen bara gissar det inte är så att han bara gissar. Vid experimentet lyckades astrologen utpeka rätt 9 mördare. Kan H 0 förkastas? förkastas? På tavla i mån av tid med Direktmetoden, se nästa slide. (Svar: H 0 kan ej förkastas).

DIREKTMETODEN. Ett alternativ till testvariabel metoden. Metodens idé med hjälp av exempel Skicklig slantslingning (på tavlan). Allmänt: Det direkta med direktmetoden är att vi räknar ut ett storhet som direkt kan jämföras med felrisken! Metoden går till på följande sätt: 1. Antag att H 0 är sann (dvs att det parametervärde den specifierar är det rätta värde). 2. Räkna under H 0 ut p-värdet = P(teststorhet blir minst lika extremt som observerat). 3. Om p-värde är mindre än α (ofta α = 0.05, 0.01, 0.001) så förkastas H 0 med felrisk α. Tolkning: Om p-värde är litet (ofta < än 0.05, 0.01 eller 0.001) så tror vi inte på H 0. p-värde ger alltså ett mått på hur orimlig H 0 är.

NÄSTA FÖRELÄSNING. Konfidensmetoden: hur kan man utföra test med konfidensintervall? Tillämpning på normalfördelning: två stickprov. Styrkefunktion Normalapproximation.