8 Inferens om väntevärdet (och variansen) av en fördelning



Relevanta dokument
Statistik 1 för biologer, logopeder och psykologer

FÖRELÄSNING 8:

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 12: Regression

2. Test av hypotes rörande medianen i en population.

TMS136. Föreläsning 11

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Kapitel 10 Hypotesprövning

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning G60 Statistiska metoder

Hur man tolkar statistiska resultat

TMS136. Föreläsning 13

Föreläsning 11: Mer om jämförelser och inferens

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 5. Kapitel 6, sid Inferens om en population

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

TENTAMEN I STATISTIKENS GRUNDER 2

F22, Icke-parametriska metoder.

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5: Hypotesprövningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tenta i Statistisk analys, 15 december 2004

, s a. , s b. personer från Alingsås och n b

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Konfidensintervall, Hypotestest

F3 Introduktion Stickprov

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Laboration 4: Hypotesprövning och styrkefunktion

Hur skriver man statistikavsnittet i en ansökan?

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Föreläsning 12: Repetition

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Avd. Matematisk statistik

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

TMS136. Föreläsning 10

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Föreläsningsanteckningar till kapitel 9, del 2

Samplingfördelningar 1

F9 Konfidensintervall

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Om statistisk hypotesprövning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Matematisk statistik för B, K, N, BME och Kemister

Hypotestestning och repetition

Jämförelse av två populationer

Sannolikheter och kombinatorik

MVE051/MSG Föreläsning 14

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FÖRELÄSNING 7:

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TAMS65 - Föreläsning 6 Hypotesprövning

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Medicinsk statistik II

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Industriell matematik och statistik, LMA /14

Avd. Matematisk statistik

TAMS65 - Föreläsning 6 Hypotesprövning

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

27,5 27,6 24,8 29,2 27,7 26,6 26,2 28,0 (Pa s)

Tentamen i Matematisk Statistik, 7.5 hp

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Övningstentamen 2 Uppgift 1: Uppgift 2: Uppgift 3: Uppgift 4: Uppgift 5: Uppgift 6: i ord

Avd. Matematisk statistik

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

F13 Regression och problemlösning

Hypotestest och fortsättning av skattningar och konfidensintervall

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik LKT325 Tentamen med lösningar

Föreläsning 5 och 6.

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Matematisk statistik för B, K, N, BME och Kemister

Aktivitetsuppgifter i kurs 602 Ekonomisk statistik, del 2, våren 2006

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Matematisk statistik för D, I, Π och Fysiker

Transkript:

8 Inferens om väntevärdet (och variansen) av en fördelning 8. Skattning av µ och Students T-fördelning Om σ är känd, kan man använda statistikan X µ σ/ n för att hitta konfidensintervall för µ. Om σ inte är känd, måste man skatta den. 1) Hur kan man skatta σ? Genom att använda stickprovsstandardavvilkelsen ˆσ = S = 1 n 1 n (X i X) i=1 ) Vad blir fördelningen av den ovanstående statistikan om man ersätter σ med S? Statistikan är inte längre normalfördelad men har en så-kallad Students T-fördelning. Egenskaper av T-fördelningen 1) Fördelningen har en parameter γ, som är ett positivt heltal och som kallas antal frihetsgrader (degree of freedom). Man betecknar T-fördelningen med γ frihetsgrader av T γ. ) Den är en kontinuerlig fördelning som är klockformad som normalfördelningen. Väntevärdet av T-fördelningen är 0. 3) Parametern γ påverkar formen (variansen) av fördelningen - när γ blir större, blir variansen mindre - när γ, närmar T-fördelningen sig standardiserade normalfördelningen Sats 8..1: Låt X 1, X,..., X n vara ett stickprov från normalfördelningen med väntevärde µ och varians σ. Då är X µ S/ n T n 1. Statistikan ovan kan man använda för att hitta konfidensintervall för µ då variansen σ inte är känd. 100(1 α)% konfidensintervall för µ är X ± t α S/ n, 1

där t α är punkten associerad till T n 1 -fördelningens täthetskurva så att ytan under kurvan till höger av punkten t α är α (dvs. att P(T n 1 > t α ) = α). Ex. 8..: Svaveldioxid (sulfur dioxide) och kväveoxid (nitrogen oxide) får man när man använder fossilbränsle. Dessa föreningar kan resa långa avstånd och de kan förvandlas till syror innan de kommer ner som syrt regn. Nu har man 4 mätningar av SO -konsentrationen (enhet µg/m 3 ) från en skog i Bovaria, Tyskland, som har blivit skadad av syrt regn. Man vill hitta 95% konfidensintervall för medel-so -konsentrationen i denna skog. Data: 5.7 43.9 41.7 71.5 47.6 55.1 6. 56.5 33.4 61.8 54.3 50.0 45.3 63.4 53.9 65.5 66.6 70.0 5.4 38.6 46.1 44.4 60.7 56.4 8.3 Hypotestest Vad är hypotestest för någonting? Man observerar någonting och vill generalisera det man ser/observerar. Man pratar om våra observationer generellt 1) Ett nytt läkemedel förlängar livet av leukemipatienter ) Efter två drinkar är medelnivån av alkohol i blodet över den tillåtna nivån 3) Majoriteten av väljarna tycker att premiärministern är ok Man generaliserar även om man har bara några observationer. Men - man borde inte generalisera om man inte har tillräckligt mycket bevis - statistiskt hypotestest hjälper oss att avskilja bra generaliseringar från de dåliga. Ex.8.3.1: Det finns många faktorer som påverkar hur bra man ser de reflekterade vägmärken på motorvägar. En viktig sak är att bilens framlyktor borde vara rätt siktade. Man tror att mer än 50% av bilar har felsiktade framlyktor. Om man lyckas att stödja det här (att mer än 50% av bilar har felsiktade framlyktor) statistiskt, kommer man att få ett nytt bättre kontrollsystem. (Låt p vara andelen bilar med felsiktade framlyktor.) Man vill testa om majoriteten av bilar har felsiktade framlyktor. Hur kan man göra det?

Två hypoteser: 1) Hypotesen som forskaren föreslår/tror på: majoriteten av bilar har felsiktade framlyktor. Den kallas en mothypotes och betecknas av H 1. H 1 : p > 0.5 ) Hypotesen som är motsats till forskarens hypotes: andelen bilar med felsiktade framlyktor är högst 50%. Den kallas en nollhypotes och betecknas av H 0. H 0 : p 0.5 Man antar att H 0 är sann och den blir sann tills man hittar tillräckligt mycket bevis för att förkasta den. För att testa om H 0 är sann behöver man en statistika och det är naturligt att använda antalet bilar med felsiktade framlyktor X. Först antar man att H 0 är sann, dvs att p 0.5. Sedan kollar man hur mycket andelen felsiktade framlyktor X/n (n är stickprovsstorleken) skiljer sig från 0.5 (nollhypotesvärdet som är närmast till värdena i H 1 ). Om vi kan förkasta hypotesen att p = 0.5, då kan man också förkasta hypotesen p 0.5. Om värdet av teststatistikan är stor, betyder det att X är större än 0.5. Hur stor borde värdet vara för att kunna förkasta H 0? I vårt fall är teststatistikan binomialfördelad med parametrar n (stickprovsstorleken, antalet bilar man undersöker) och succésannolikheten 0.5 om H 0 är sann. Då är E[X] = n 0.5. Säg att man undersöker 0 bilar (n = 0). Då är E[X] = 10 vilket betyder att det genomsnittliga antalet bilar med felsiktade framlyktor bland 0 bilar är 10. Säg att teststatistikan får ett stort värde och att vi bestämmer oss att förkasta H 0. Då är antingen eller 1) H 0 sann och man har fått ett sällsynt stickprov ) H 1 sann och majoriteten av bilar har felsiktade framlyktor Vanligen tror man då att ) är sann och förkastar H 0. Men vad om 1) är sann? Man har gjort ett felt beslut: fel av typ I (H 0 förkastas även om den är sann). Sannolikheten av fel av typ I P(fel av typ I) = P(H 0 förkastas H 0 sann) = α kallas signifikansnivån av testet. 3

I vårt test: H 0 : p 0.5 och H 1 : p > 0.5 Teststatistika X (antalet bilar med felsiktade framlyktor) har Bin(0, 0.5)- fördelning, om H 0 är sann Man förkastar H 0 om X 14 och då är α 0.05. Värdena av teststatistikan för vilka H 0 förkastas kallas ett kritiskt område. Säg att värdet av teststatistikan är inte tillräckligt stort för att förkasta H 0 och att man accepterar H 0. Det är möjligt att beslutet är felt. Vad om H 0 inte är sann? Då skulle vi acceptera H 0 även om den inte är sann (fel av typ II). Sannolikheten av fel av typ II är P(fel av typ II) = P(acceptera H 0 H 1 sann) = β Sannolikheten β används för att definiera teststyrkan P(H 0 förkastas H 1 sann) = 1 P(acceptera H 0 H 1 sann) = 1 β. Ex.8.3.4: Antag att den sanna andelen bilar med felsiktade framlyktor är 0.7 (forskaren vet inte detta). Vad är då sannolikheten att vårt test inte kan upptäcka detta? Teststyrkan? Obs! Det skulle vara bra att ha ett test med liten α och stor 1 β. Stickprovsstorleken borde vara tillräckligt stor! Hypotestest 1) Nollhypotes H 0 (motsats till H 1 ) accepteras om man inte hittar tillräckligt mycket bevis för att förkasta den. ) Mothypotes H 1 (forskningshypotes) accepteras endast om tillräckligt mycket bevis mot H 0 hittas. 3) Teststatistika är en statistika som används för att bestämma om H 0 borde förkastas. 4) Kritiska området är de numeriska värdena av teststatistikan för vilka H 0 förkastas. Kritiska området väljs så att sannolikheten att teststatistikan ligger där när H 0 är sann (sannolikheten av fel av typ I) är α. Man bestämmer α och det kritiska området på förhand. 5) Värdet av teststatistikan räknas. 4

6) Slutsats: a) Värdet av teststatistikan är på det kritiska området och man förkastar H 0 på signifikansnivå α b) Värdet av teststatistikan är inte på det kritiska området och man accepterar H 0 på signifikansnivå α 8.4 Signifikanstest Signifikanstest - Används mer och mer i stället fär hypotestest (datorer). - Man fixerar inte α och det kritiska området på förhand. - Man väljer en teststatistika och räknar dess värde. Sedan räknar man sannolikheten att observera ett värde som är minst lika extremt som det som vi har givet att H 0 är sann. Den här sannolikheten kallas ett p-värde. Ex.8.4.1: Man använder mer och mer aluminium inom bilindustri (för att minska bränslekonsumption). Med en viss bil kan man köra genomsnittligt 6 mpg (miles per gallon) och σ = 5 mpg. Man hoppas att en ny design (med mer Al) skulle öka det genomsnittliga mpg. Antag att ändringen inte påverkar σ. Hypotestest eller signifikanstest? - Räkna p-värdet - Om α fixt jämför p-värdet med α och a) om p α, förkasta H 0 b) om p > α, acceptera H 0 8.5 Hypotes/signifikanstest av väntevärdet, T-test Ex: En neurolog vill veta hur en viss narkotika påverkar reaktionstid. Hon ger narkotika till råttor och mäter deras reaktionstider efter en neurologisk stimulus. Neurologen vet att reaktionstiden utan narkotika hos en råtta är µ 0 = 1.s. Möjliga hypoteser hon skulle kunna testa är a) Den genomsnittliga reaktionstiden skiljer sig från 1.s. Då är H 0 : µ = 1. och H 1 : µ 1.. Det här testet är ett dubbelsidigt test (two-tailed test). 5

b) Den genomsnittliga reaktionstiden är kortare än 1.s. Då är H 0 : µ 1. och H 1 : µ < 1.. Det här testet är ett enkelsidigt test (one-tailed test) och ett left-tailed test. c) Den genomsnittliga reaktionstiden är längre än 1.s. Då är H 0 : µ 1. och H 1 : µ > 1.. Det här testet är ett enkelsidigt test och ett right-tailed test. I praktiken väljer man vanligen nollhypotesen H 0 : µ = µ 0 och mothypotesen är då en av de följande H 1 : µ µ 0 H 1 : µ < µ 0 H 1 : µ > µ 0 (Om hypotesen µ = µ 0 kan förkastas mot hypotesen H 1 : µ < µ 0, kan också hypotesen µ µ 0 förkastas, och om hypotesen µ = µ 0 kan förkastas mot hypotesen H 1 : µ > µ 0, kan också hypotesen µ µ 0 förkastas.) Ex: Man är intresserad av hur mycket duvor äter. Man undersöker 16 fåglar och mäter hur mycket mat de har i sig (i gram). Man vill testa om medelvikten (av maten) skiljer sig från 1g. Data:.13 3.751.01.967.509 1.384 1.454 0.818 0.335.134 1.603 1.309 1.865.546.144 0.834 8.7 Ickeparametriska metoder Z-testet (används för att testa hypoteser angående väntevärdet när σ är känd) och T-testet (σ inte känd) antar att stickprovet kommer från en normalfördelning eller att stickprovet är tillräckligt stort. Om man inte kan anta normalfördelning och antal observationer är litet, skulle det vara bättre att använda ickeparametriska/parameterfria test. Teckentest (sign test) för medianen När man testar hypoteser angående väntevärdet är det naturligt att använda stickprovsmedelvärdet som (en del av) teststatistikan. Om man inte vet från vilken fördelning stickprovet kommer från, vet man inte fördelningen av stickprovsmedelvärdet. Medianen är en lägesparameter liksom väntevärdet och med hjälp av den kan man hitta statistikor dess fördelning inte beror på fördelningen av stickprovet. 6

Man antar att stickprovet är från en kontinuerlig fördelning. Medianen M av en kontinuerlig stokastisk variabel definieras så att P(X > M) = P(X < M) = 1, dvs. att medianen är det mellersta värdet av fördelningen. Man kan testa hypoteser angående medianen. Låt X vara en kontinuerlig stokastisk variabel med medianen M och låt X 1, X,..., X n vara ett stickprov från fördelningen av X (som man inte känner). Man kan testa eller eller där M 0 är ett fixt värde. H 0 : M = M 0 mot H 1 : M > M 0 H 0 : M = M 0 mot H 1 : M < M 0 H 0 : M = M 0 mot H 1 : M M 0 Nu har var och en av differenserna X i M 0 sannolikheten 1 att vara positiv, sannolikheten 1 att vara negativ och sannolikheten 0 att vara noll. Då är, om H 0 är sann, antalet positiva differenser Q + Q + Bin(n, 1 ) och E[Q + ] = n. Dvs. att genomsnittligt hälften av differenser är positiva och hälften negativa. Då förkastar man H 0 om man testar mot - H 1 : M < M 0 och Q + är för litet - H 1 : M > M 0 och Q + är för stort - H 1 : M M 0 och Q + är för stort eller för litet. Ex. 8.7.1: Genom att använda en standard metod är mediantiden för att göra en uppgift färdigt (vid ett löpande band) 55s. Man vill testa om en ny metod minskar mediantiden. 7

Teoretiskt kan differensen X i M 0 inte vara noll men nollor är möjliga i praktiken. Om det finns nollor, finns det minst två möjliga sätt att hantera dem: 1) Om antalet nollor är litet jämfört med stickprovsstorleken, kan man kasta bort dem. ) Man kan sätta nollor som +-tecken eller som -tecken. Man gör det så att det inte hjälper att förkasta H 0. Om man testar mot H 1 : M < M 0, blir nollorna +-tecken, om man testar mot H 1 : M > M 0, blir nollorna -tecken och om man testar mot H 1 : M M 0, blir nollorna +-tecken, om det finns färre +-tecken, och -tecken, om det finns färre -tecken. 8