TMS136. Föreläsning 11

Relevanta dokument
TMS136. Föreläsning 13

TMS136. Föreläsning 10

FÖRELÄSNING 8:

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

9. Konfidensintervall vid normalfördelning

Konfidensintervall, Hypotestest

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

FÖRELÄSNING 7:

Thomas Önskog 28/

Föreläsning 11: Mer om jämförelser och inferens

Samplingfördelningar 1

Föreläsning 5. Kapitel 6, sid Inferens om en population

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Statistik 1 för biologer, logopeder och psykologer

TMS136. Föreläsning 7

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 12, FMSF45 Hypotesprövning

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Kapitel 10 Hypotesprövning

TMS136. Föreläsning 4

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Föreläsning 4: Konfidensintervall (forts.)

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Lektionsanteckningar 11-12: Normalfördelningen

27,5 27,6 24,8 29,2 27,7 26,6 26,2 28,0 (Pa s)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Repetitionsföreläsning

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning 5: Hypotesprövningar

Hur man tolkar statistiska resultat

, s a. , s b. personer från Alingsås och n b

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsningsanteckningar till kapitel 9, del 2

F3 Introduktion Stickprov

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 12: Repetition

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Matematisk statistik för B, K, N, BME och Kemister

SF1901 Sannolikhetsteori och statistik I

TMS136: Dataanalys och statistik Tentamen

Formel- och tabellsamling i matematisk statistik

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 12: Regression

F9 Konfidensintervall

Föreläsning G60 Statistiska metoder

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

Formler och tabeller till kursen MSG830

F9 SAMPLINGFÖRDELNINGAR (NCT

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

10. Konfidensintervall vid två oberoende stickprov

Föreläsning G60 Statistiska metoder

Avd. Matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

TAMS65 - Föreläsning 6 Hypotesprövning

2. Test av hypotes rörande medianen i en population.

Matematisk statistik för B, K, N, BME och Kemister

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 11, FMSF45 Konfidensintervall

Lufttorkat trä Ugnstorkat trä

TAMS65 - Föreläsning 6 Hypotesprövning

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning 12: Linjär regression

Hypotestest och fortsättning av skattningar och konfidensintervall

Styrkeberäkningar och diskreta data

Matematisk statistik för D, I, Π och Fysiker

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Laboration 4: Hypotesprövning och styrkefunktion

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Uppgift a b c d e Vet inte Poäng

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Avd. Matematisk statistik

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 3: Konfidensintervall

(a) Anta att Danmarksprojektet inte lyckas hålla budgeten. Vad är då sannolikheten att Sverigeprojektet inte heller lyckas hålla budgeten? Motivera!

Grundläggande matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

F22, Icke-parametriska metoder.

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Transkript:

TMS136 Föreläsning 11

Andra intervallskattningar Vi har sett att vi givet ett stickprov och under vissa antaganden kan göra intervallskattningar för väntevärden Man kan även gör intervallskattningar för varianser i normalfördelningar och för proportioner i binomialfördelingar

Konfidensintervall för varians i normalfördelning Vi vet att vi givet ett stickprov X 1,, X n kan skatta populationsvariansen σ 2 med stickprovsvariansen S 2 = 1 n 1 n i=1 X i X 2

Konfidensintervall för varians i normalfördelning Om stickprovet kommer från en normalfördelning gäller att n 1 S 2 σ 2 har χ 2 -fördelning ( chi-två ) med n 1 frihetsgrader

χ 2 -fördelning Täthetsfunktionen för χ 2 -fördelningen med 1, 2,3,4,6 och 9 frihetsgrader

χ 2 -fördelning Vi ser att χ 2 -fördelade s.v. är positiva och att tätheterna är skeva (asymmetriska) Precis som för normalfördelning och t-fördelning finns inga slutna uttryck för fördelningsfunktionen så man måste slå i tabeller eller använda numerik om man vill bestämma sannolikheter för χ 2 -fördelade s.v. Det tal som avgränsar arean under täthetsfunktionens graf så att α 100% av arean finns ovanför talet kallar vi χ 2 α,n 1 χ 2 α,n 1

Konfidensintervall för varians i normalfördelning Så om vi vill göra ett 1 α 100%-igt konfidensintervall för variansen i en normalfördelning ska vi alltså klämma in n 1 S 2 σ 2 mellan de tal χ 2 1 α 2,n 1 och χ2 α 2,n 1 sådana att P χ 2 1 α 2,n 1 n 1 S2 σ 2 χ 2 α 2,n 1 = 1 α

Konfidensintervall för varians i normalfördelning Möblerar vi om i parentesen får vi P n 1 S2 χ 2 α 2,n 1 σ 2 n 1 S2 χ 2 1 α 2,n 1 = 1 α Om vi observerar x 1,, x n observerar vi ju också s 2 och konfidensintervallet n 1 s 2 χ 2 α 2,n 1, n 1 s 2 χ 2 1 α 2,n 1

Exempel Vi observerar stickprovet 4,74 2,88 0,41 6,02 1,88 5,55 5,25 4,07 5,00 7,54 Stickprovet passerar ett normalfördelningstest

Exempel Vi vill skapa ett 95%-igt konfidensintervall för variansen i den normalfördelning som stickprovet antas komma ifrån Vi har att s 2 4.41 och n = 10 ger vid koll i appendix att χ 2 0.025,9 = 19.02 och χ2 0.975,9 = 2.70 Det följer att konfidensintervallet blir 9 4.41 19.02, 9 4.41 2.70 2.09,14.7

Konfidensintervall för σ Om man istället vill ha konfidensintervall för standardavvikelsen i en normalfördelning gör man ett för variansen och drar roten ur I exemplet ovan får vi alltså ett 95%-igt konfidensintervall för σ som är 2.09, 14.7 1.45, 3.83

Ensidiga konfidensgränser för σ 2 och σ Om vi istället vill göra ensidiga 1 α 100%-iga konfidensgränser får vi dessa genom att lägga hela α på ena sidan Alltså, en undre respektive övre 1 α konfidensgräns för σ 2 ges av 100%-ig n 1 s 2 χ 2 α,n 1 respektive n 1 s 2 χ 2 1 α,n 1 Motsvarande för σ fås genom att dra roten ur

Exempel Med samma data som i det tvåsidiga exemplet får vi en övre 95% konfidensgräns för σ 2 genom att leta upp χ 2 0.95,9 = 3.33 i appendix och pussla ihop enligt n 1 s 2 χ 2 1 α,n 1 = 9 4.41 3.33 11.9

Konfidensintervall för proportioner Vi vet att om parametern n i en binomialfördelning är stor så kan binomialfördelningen approximeras med normalfördelning (CGS) Detta betyder att om vi har stora stickprov så kan vi med hjälp av normalfördelning klämma in en populationsproportion motsvarande parametern p i en binomialfördelning i ett konfidensintervall

Konfidensintervall för proportioner Alltså: Om X är binomialfördelad med parametrar n och p, där n är stort, och vi skattar p med p = X/n så är X np np 1 p = p p p 1 p n approximativt standard normalfördelad, vilket ger att P z α 2 p p p 1 p n z α 2 1 α

Konfidensintervall för proportioner Möblerar vi om får vi att P p z α 2 p 1 p n p p + z α 2 p 1 p n 1 α För att kunna skapa konfidensintervallet från observerade data måste p ersättas med p under rottecknet Så det approximativt 1 α 100%-iga konfidensintervallet fås ur p ± z α 2 p 1 p n

Exempel Från ett stickprov av storlek 200 observerar vi att 82 personer är för trängselskatt i Göteborg Vi vill göra ett (approximativt) 95%-igt konfidensintervall för hur stor andel av Göteborgs befolkning som är för trängselskatt

Exempel Vi observerar alltså att p = 82 200 = 0.41 Vi vet att z 0.025 = 1.96 så det sökta konfidensintervallet blir 0.41 ± 1.96 0.41 0.59 200 alltså 0.34, 0.48

Hur stort stickprov behövs för en viss intervallbredd? Om vi vill att konfidensintervallet för proportionen ska ha bredden 2E kan vi få detta om vi väljer stickprovsstorleken n = z α 2 E 2 p(1 p) Detta förutsätter dock att vi har en uppfattning om vad p är. Det kanske vi har från en pilotstudie

Hur stort stickprov behövs för en viss intervallbredd? Om vi inte har någon uppfattning om vad p är vet vi alla fall att p(1 p) 0.25 Så worst case är att n = 0.25 z α 2 E 2

Exempel Vi vill göra om undersökningen om trängselskatten så att vi får ett 95%-igt konfidensintervall som är 1 procentenhet brett Om vi använder den förra studien som riktmärke får vi att vi ska använda ett stickprov av storlek (avrundat upp till närmsta hundratal) n = z α 2 E 2 p 1 p = 1.96 0.005 2 0.41 0.59 37200 Utan riktmärket skulle vi få n = 0.25 z α 2 E 2 = 0.25 1.96 0.005 2 38500

Hypotestest I exempelvis en tillverkningprocess av 33cl läskburkar kan vi ha anledning att tro att burkarna fylls på lite för mycket Vi vill testa sanningshalten i detta med hjälp av stickprovsdata Vi sätter upp en nollhypotes (null hypothesis), H 0, och en mothypotes (alternativ hypothesis), H 1

Hypotesprövning I fallet med läskburkarna är det väntevärdet, μ, för hur mycket läsk som finns i burkarna, vi ska testa Hypoteserna blir H 0 : μ = 33 H 1 : μ > 33 Mothypotesen är det vi tror

Hypotesprövning För stickprovet X 1,, X n som antas komma från en normalfördelning vet vi att kvoten X μ S n är t-fördelad med n 1 frihetsgrader

Hypotesprövning Så för att utföra hypotesprövningen ska vi jämföra det observerade värdet på kvoten med en tkvantil, t α,n 1, alltså det tal som har α 100% av arean under täthetsfunktionen till höger om sig Det är vanligt att man väljer α = 0.05 Nedan ska vi se vad ett specifikt val av α har för implikationer

Hypotesprövning Om det observerade värdet för kvoten är större än t α,n 1 förkastar vi nollhypotesen. Vi drar alltså slutsatsen att burkarna fylls för mycket Om det observerade värdet på kvoten inte är större än t α,n 1 kan vi inte förkasta nollhypotesen och har därmed inte heller något fog för att påstå att burkarna fylls för mycket

Hypotesprövning Vilken t-kvantil ska man välja? Vid hypotesprövning finns följande möjligheter H 0 är sann H 0 är falsk Inte förkasta H 0 Korrekt Typ II-fel Förkasta H 0 Typ I-fel Korrekt Sannolikheten att göra Typ I-fel kallas signifikansnivå, betecknas α, och bestämmer vilken t-kvantil vi ska jämföra kvoten med Sannolikheten att gör Typ II-fel betecknas β

Hypotesprövning Antag att vi bestämmer oss för α = 0.05 och att vi bland 30 slumpmässigt valda läsburkar observerar x = 33.3 och s = 0.36 Det observerade värdet på kvoten blir då Stickprovsmedelvärdet Nollhypotesens värde på μ 33.3 33 0.36/ 30 4.56 Stickprovsstandardavvikelsen Stickprovsstorleken

Hypotesprövning Värdet på kvoten (4.56) ska alltså jämföras med t-kvantilen för 29 frihetsgrader och α = 0.05 Vi finner t α,n 1 = t 0.05,29 = 1.699 i appendix Vi kan alltså förkasta nollhypotesen och gott påstå att burkarna fylls för mycket

Förkastelseområde I fallet med läskburkarna har vi förkastelseområdet (critical region, region of rejection) som är skuggat i bilden Det skuggade området är alltså (i det här fallet) sannolikheten att en t 29 -fördelad slumpvariabel tar ett värde större än 1.699

p-värde I hypotesprövningssammanhang förekommer ofta uttrycket p-värde p-värdet säger hur sannolikt det är att vårt obserververade stickprov ser ut som det gör (eller värre ) om nollhypotesen är sann Vi förkastar nollhypotesen om p-värdet är mindre än α

p-värde I fallet med läskburkarna blir p-värdet (räkna i exempelvis Excel; 1-T.DIST(4,56;29;TRUE)) P t 29 > 4.56 = 0.000043 Det är alltså högst osannolikt att läskburkarna kommer från en fördelning med väntevärde 33cl

Olika hypoteser Vi kan pröva olika hypoteser kring en populationsparameter θ Ensidiga eller H 0 : θ = θ 0 H 1 : θ > θ 0 H 0 : θ = θ 0 H 1 : θ < θ 0

Olika hypoteser Tvåsidiga H 0 : θ = θ 0 H 1 : θ θ 0 För läskburkarna kanske vi istället vill pröva H 0 : μ = 33 H 1 : μ 33

Fler läskburkar och tvåsidigt Om vi fortsatt använder α = 0.05 men tar ut ett stickprov om 36 burkar, får x = 33.2 och s = 0.38, ska vi förkasta nollhypotesen om x μ s n > t 35,0.025 eller x μ s n < t 35,0.025 t 35,0.025 2.03 (appendix) och 3.16 så vi förkastar nollhypotsen x μ = 33.2 33 s n 0.38 36

Förkastelseområde När vi testar tvåsidigt med signifikansnivå α = 0.05 är förkastelseområdet de 2.5% av sannolikheten längst till vänster och längst till höger

Hypotesprövning vs. konfidensintervall I fallet med läskburkarna skulle vi få det 95%- konfidensintervallet 33.2 2.03 0.38 36, 33.2 + 2.03 0.38 36 (33.07, 33.33) Nollhypotesens μ = 33 finns alltså inte med i intervallet När det gäller väntevärden hos normalfördelningar kan man lika gärna göra (tvåsidiga) konfidensintervall som (tvåsidig) hypotesprövning

Tänkbara parametrar för hypotestest Väntevärde, μ, hos normalfördelning med känd varians testas mha den standard normalfördelade kvoten X μ σ och det observerade värdet utvärderas mot standard normalkvantil n

Tänkbara parametrar för hypotestest Väntevärde, μ, hos normalfördelning med okänd varians testas som vi sett mha den t n 1 -fördelade kvoten X μ S och det observerade värdet utvärderas mot t n 1 -kvantil n

Tänkbara parametrar för hypotestest Proportionen, p, hos binomialfördelning testas mha den approximativt standard normalfördelade kvoten p p p(1 p)/n och det observerade värdet utvärderas mot standard normalkvantil

Hypotest för proportion Vi tror att andelen läskburkar som är överfyllda är större än 0.4 Vi ställer upp hypoteserna H 0 : p = 0.4 H 1 : p > 0.4 Vi tar ett stickprov om 28 burkar och upptäcker att 15 burkar är överfyllda

Hypotest för proportion Det observerade värdet för kvoten blir alltså 15/28 0.4 0.4 0.6/28 1.466 Om vi arbetar med α = 0.05 är normalkvantilen z 0.05 = 1.64 så vi kan inte förkasta nollhypotesen

Reflektion Att man inte kan förkasta nollhypotesen betyder inte nödvändigtvis att nollhypotesen är sann, bara att man inte har nog bevis att förkasta den