Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Relevanta dokument
Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 11: Mer om jämförelser och inferens

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

F3 Introduktion Stickprov

TMS136. Föreläsning 13

FÖRELÄSNING 8:

Matematisk statistik för B, K, N, BME och Kemister

Formel- och tabellsamling i matematisk statistik

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 12, FMSF45 Hypotesprövning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Kapitel 10 Hypotesprövning

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

TMS136. Föreläsning 11

Föreläsningsanteckningar till kapitel 9, del 2

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 12: Regression

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Repetitionsföreläsning

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Thomas Önskog 28/

Föreläsning 7. Statistikens grunder.

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 11, Matematisk statistik Π + E

Föreläsning 12: Repetition

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 5 och 6.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

TMS136. Föreläsning 10

Föreläsning 5. Kapitel 6, sid Inferens om en population

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Föreläsning 11, FMSF45 Konfidensintervall

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

, s a. , s b. personer från Alingsås och n b

Föreläsning 5: Hypotesprövningar

Statistik 1 för biologer, logopeder och psykologer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

SF1901 Sannolikhetsteori och statistik I

Föreläsning 4: Konfidensintervall (forts.)

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

7.5 Experiment with a single factor having more than two levels

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Lektionsanteckningar 11-12: Normalfördelningen

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

TAMS65 - Föreläsning 12 Test av fördelning

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

Avd. Matematisk statistik

Hypotestest och fortsättning av skattningar och konfidensintervall

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

Samplingfördelningar 1

8 Inferens om väntevärdet (och variansen) av en fördelning

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Föreläsning 3. Sannolikhetsfördelningar

Avd. Matematisk statistik

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

F9 Konfidensintervall

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Matematisk statistik för B, K, N, BME och Kemister

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Avd. Matematisk statistik

9. Konfidensintervall vid normalfördelning

FÖRELÄSNING 7:

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Lufttorkat trä Ugnstorkat trä

TENTAMEN I STATISTIKENS GRUNDER 2

Avd. Matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

Transkript:

Föreläsning 3. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik 1MS026 vt 2014

Direktmetoden Vid problem rörande parametrar i diskreta fördelningar är ofta direktmetoden lämplig. Om situationen tillåter kan exempelvis normalapproximation genomföras och situationen återförs till fallet med normalfördelningen.

Exempel (parametern p i binomialfördelning) I en kompletterande undersökning vill man undersöka andelen fiskar, angripna av en sjuka, i ett vattendrag nära en industri. Man undersökte 25 slumpvis valda fiskar och fann 11 sjuka. Normalt lider 30% av fiskarna av denna sjuka. Finns tillräckligt belägg för avvikelse? (Testa på nivån α = 0.05.) [Tavlan]

Exempel (direktmetoden, Poissonfördelning) I ett visst land anses antalet dödsolyckor med mopedister inblandade följa en Poissonfördelning med väntevärdet 20. Under ett olycksdrabbat år noteras 30 dödsolyckor. Pressen skriver med stora rubriker om en katastrofal ökning, med hela 50%. Utför ett hypotestest med konfidensgrad 99%. [Tavlan]

Exempel, Poissonfördelning Vid en flygplats rapporteras alla incidenter som skulle kunna ha orsakat olyckor. Under ett år rapporteras 80 incidenter, vilket föranleder en översyn av säkerhetsrutinerna. Aret därpå rapporteras 60 incidenter. Om observationerna anses komma från oberoende Poisson-fördelningar, kan man säga att översynen har fått effekten att det förväntade antalet incidenter har minskat? [Tavlan]

Likelihoodkvottest (LR-test) Definiera L 1 = sup θ H 1 L(θ), där L(θ) är likelihoodfunktionen. Likelihoodtestet lyder: Förkasta H 0 då T = L 1 L 0 K L 0 = sup θ H 0 L(θ) där konstanten K väljs så att felrisken blir den ökade. Ekvivalent formulering, loglikelihood; förkasta H 0 då ln T = ln(l 1 ) ln(l 0 ) = l 1 l 0 ln K = K där l 1 = ln L 1 och l 0 = ln L 0.

Icke-parvis ordnat t-test Observationer: x 1,..., x n1 från N(µ 1, σ 2 1), y 1,..., y n2 från N(µ 2, σ 2 2 ). Hypoteser: Testvariabel: H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2 t = x ȳ där s p 1 n 1 + 1 n 2 s 2 p = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2 Under H 0 gäller T t(n 1 + n 2 2)..

Example: Energy production An industrial plant wants to determine which of two types of fuel gas or electric will produce more useful energy at the lower cost. One measure of economical energy production is the plant investment per delivered quad. This is calculated by taking the amount of money (in dollars) invested in the particular utility of the plant and dividing by the delivered amount of energy (in quadrillion British thermal units). The smaller this ratio, the less an industrial plant pays for its delivered energy.

Example: Energy production Independent random samples of 11 plants using electrical utilities and 16 plants using gas utilities were taken, and the plant investment/quad was calculated for each. Data are listed below. Do these data provide sufficient evidence at α = 0.05 to indicate a difference in the average investment quad between all plants using gas and all those using electric utilites? Electric 204.15 0.57 62.76 89.72 0.35 85.46 0.78 0.65 44.38 9.28 78.60 Gas 0.78 16.66 74.94 0.01 0.54 23.59 88.79 0.64 0.82 91.84 7.20 66.64 0.74 64.67 165.60 0.36 [Tavlan]

Parvis ordnat t-test ( stickprov i par ) Observationspar (x 1, y 1 ),..., (x n, y n ) där X i N(µ 1, σ 2 1 ), Y i N(µ 2, σ 2 2 ). Skapa differenser d i = x i y i, där D N(µ D, σ 2 D ). Beräkna d, s D. Hypoteser: Testvariabel: H 0 : µ D = µ 1 µ 2 = 0, H 1 : µ D 0 t = Under H 0 gäller T t(n 1). d s D / n

Example: Safety program The following table gives the average weekly losses of worker-hours due to accidents in 10 industrial plants before and after a certain safety program was put into operation: Before 45 73 46 124 33 57 83 34 26 17 After 36 60 44 119 35 51 77 29 24 11 Use the 0.05 level of significance to test whether the safety program is effective. [Tavlan]

Introduktion av χ 2 -fördelningen Definition. En slumpvariabel X med täthetsfunktion av formen kx f /2 1 e x/2, x > 0 (där k är en normeringskonstant) säges vara χ 2 -fördelad med f frihetsgrader. Skrivsätt. X χ 2 (f ).

Exempel på täthetsfunktioner, χ 2 -fördelningen 0.5 0.45 0.4 df=2 df=5 df=10 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 20

Resultat, χ 2 -fördelningen Om X i, i = 1,..., n är ober. slumpvariabler och X i N(0, 1) gäller att n i=1 X 2 i χ 2 (n), n (X i X ) 2 χ 2 (n 1) i=1 (där X = n i=1 X i/n). Om X i, i = 1,..., n är ober. slumpvariabler och X i N(µ, σ 2 ) gäller att 1 σ 2 n (X i µ) 2 χ 2 (n), i=1 1 σ 2 n (X i X ) 2 χ 2 (n 1) i=1

Användbart resultat För inferens om variansen σ 2 vid stickprov från en normalfördelning är χ 2 -fördelningen användbar. Det gäller att där R = (n 1)S 2 (X) σ 2 χ 2 (n 1) S 2 (X) = 1 n 1 n (X i X ) 2. i=1

Exempel: Sannolikhetsberäkning I en tillverkningsindustri fylls förpackningar med vätska. Man önskar som kvalitetsmått för variationen hos en förpackning utnyttja variansen σ 2, med kravet σ 2 < 0.0025. Från en dags produktion har man tagit n = 10 förpackningar och en stickprovsvarians s 2 kan beräknas. Om, i själva verket, σ 2 = 0.001, beräkna sannolikheten P(S 2 > 0.0025). [Tavlan]

Intervall för σ 2 Antag oberoende, normalfördelade obs. Inför storheten Q = (x i x) 2. Ett intervall för variansen σ 2 ges av ( ) Q Q I σ 2 = (f ), χ 2 1 α/2 (f ) χ 2 α/2 där f = n 1. Ekvivalent uttryck: ( ) (n 1)s 2 I σ 2 = χ 2 α/2 (f ), (n 1)s 2 χ 2 1 α/2 (f )

Exempel (sockerhalt) Bestämning av sockerhalten i betleveranser är väsentlig inom sockerindustrin eftersom odlarna får betalt efter den uppskattade sockermängden i betlassen. Ur en stor mängd sockerbetor uttogs 60 stycken och sockerhalten i procent bestämdes för var och en. Man fann stickprovsstandardavvikelsen s = 1.23. Beräkna ett 95% konfidensintervall för standardavvikelsen σ. [Tavlan] Örtofta sockerbruk.

F -fördelningen Definition. En slumpvariabel X säges vara F -fördelad med f 1 och f 2 frihetsgrader om f X (x) = k x (f 1/2) 1 (1 + f 1 f 2 x) (f 1+f 2 )/2, x 0 Skrivsätt. X F (f 1, f 2 ). Sats. Om X χ 2 (f 1 ), Y χ 2 (f 2 ), X och Y oberoende, och Z = X /f 1 Y /f 2 så gäller att Z F (f 1, f 2 ).

Exempel på täthetsfunktioner, F -fördelningen 1 F(2,2) F(10,10) F(30,30) 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 3.5 4

Exempel (sockerhalt) I ett annat parti sockerbetor (n = 40) fann man stickprovsstandardavvikelsen s = 1.39. Genomför ett F -test för att testa hypotes om lika varianser (α = 0.10). [Tavlan]

F-test, kommentarer Förutsättning: normalfördelade variabler Helst så lika stickprovsstorlekar som möjligt Ej hög styrka, hypotesen σ1 2 = σ2 2 kommer inte förkastas tillräckligt ofta i de fall varianserna faktiskt är olika. Ofta rekommenderas högre signifikansnivå (t.o.m. α = 0.20). A. Agresti, C. Franklin: The F test for comparing standard deviations of two populations performs poorly if the populations are not close to normal. Statisticians do not recommend it for general use because of this.

Procedur vid hypotestest Hypotestest (av väntevärde i normalfördelning) 1. Förutsättningar och antaganden. Kvantitativ variabel, innebörd av väntevärde Oberoende obs. Fördelningen approximativt normal 2. Formulera nollhypotes och mothypotes (en- eller tvåsidig); Exempel: H 0 : µ = µ 0, H 1 : µ µ 0. 3. Formulera testvariabel: t = x µ 0 s/ n 4. Beräkna p-värde (tabell eller dator). 5. Slutsats: Förkasta H 0 om p-värdet mindre än eller lika med signifikansnivån (t.ex. 0.05). Relatera resultatet till det aktuella problemet.

Definition, p-värde Sannolikheten att få ett lika stort (eller extremare, i riktning av mothypotesen) som det observerade, under antagandet att H 0 är sann. Ett lågt p-värde utgör ett starkt skäl mot nollhypotesen H 0. En del forskare fiskar frenetiskt efter låga p-värden!

Exempel: Miljöförorening, batterier Urban storm water can be contaminated by many sources, including discarded batteries. When ruptured, these batteries release metals of environmental significance. A sample of 51 Panasonic AAA batteries found in urban areas around Cleveland gave a sample mean zinc mass of 2.06 g and a sample standard deviation of 0.141 g. Does this data provide compelling evidence for concluding that the population mean zinc mass exceeds 2.0 g? Jennings, A., Hise, S., Kiedrowski, B., and Krouse, C. (2009). Urban Battery Litter. Journal of Environmental Engineering 135, 4657.

Varför är 0.05 en vanlig signifikansnivå? Ett barn har migrän, får antingen läkemedel eller placebo. Lindras smärtan? Inför p = Sannolikheten att smärtlindringen blir bättre med läkemedel Hypotes: H 0 : p = 0.50 mot p 0.50 Scenario: Barn 1: Mår bättre med placebo. Förkasta H 0? Barn 2: Mår bättre med placebo. Förkasta H 0? Barn 3: Mår bättre med placebo. Förkasta H 0?... Barn 5: Mår bättre med placebo. Förkasta H 0?

Varför är 0.05 en vanlig signifikansnivå? Antag att vid 5:e barnet är man villig att tro på att placebo är bättre. Under nollhypotesen p = 0.50 gäller (oberoendeantagande) att sannolikheten för händelsen är (0.50) 5 = 0.03. För ett tvåsidigt test ger detta ett p-värde på 2 0.03 = 0.06 vilket är nära 0.05.

Stora stickprov signifikans via p-värden Exempel: slumptalsgenerering i dator av talen 0, 1, 2,..., 9. Antag likformig fördelning, 0.10 för varje utfall. I ett stickprov, skiljer sig medelvärdet från 4.50? Hypotestest: H 0 : µ = 4.50 mot H 1 : µ 4.50 För två sekvenser (i), (ii) har man i vardera fallet funnit x = 4.40, s = 2.90. Fall (i): n = 100; fall (ii): n = 10 000.

Stora stickprov signifikans via p-värden Medelfel, s/ n: (i): 2.90/ 100 = 0.29, (ii): 2.90/ 10 000 = 0.029 Teststorheter: (i): x µ 0 s/ n = 4.40 4.50 0.29 = 0.345 p-värden: (ii): x µ 0 s/ n = 4.40 4.50 0.029 (i): 0.73, (ii): 0.0006 = 3.45 Lärdom: Var uppmärksam med tolkningar av p-värden för stora stickprov! Statistisk signifikans? Praktisk signifikans?