Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 3. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik 1MS026 vt 2014

Direktmetoden Vid problem rörande parametrar i diskreta fördelningar är ofta direktmetoden lämplig. Om situationen tillåter kan exempelvis normalapproximation genomföras och situationen återförs till fallet med normalfördelningen.

Exempel (parametern p i binomialfördelning) I en kompletterande undersökning vill man undersöka andelen fiskar, angripna av en sjuka, i ett vattendrag nära en industri. Man undersökte 25 slumpvis valda fiskar och fann 11 sjuka. Normalt lider 30% av fiskarna av denna sjuka. Finns tillräckligt belägg för avvikelse? (Testa på nivån α = 0.05.) [Tavlan]

Exempel (direktmetoden, Poissonfördelning) I ett visst land anses antalet dödsolyckor med mopedister inblandade följa en Poissonfördelning med väntevärdet 20. Under ett olycksdrabbat år noteras 30 dödsolyckor. Pressen skriver med stora rubriker om en katastrofal ökning, med hela 50%. Utför ett hypotestest med konfidensgrad 99%. [Tavlan]

Exempel, Poissonfördelning Vid en flygplats rapporteras alla incidenter som skulle kunna ha orsakat olyckor. Under ett år rapporteras 80 incidenter, vilket föranleder en översyn av säkerhetsrutinerna. Aret därpå rapporteras 60 incidenter. Om observationerna anses komma från oberoende Poisson-fördelningar, kan man säga att översynen har fått effekten att det förväntade antalet incidenter har minskat? [Tavlan]

Likelihoodkvottest (LR-test) Definiera L 1 = sup θ H 1 L(θ), där L(θ) är likelihoodfunktionen. Likelihoodtestet lyder: Förkasta H 0 då T = L 1 L 0 K L 0 = sup θ H 0 L(θ) där konstanten K väljs så att felrisken blir den ökade. Ekvivalent formulering, loglikelihood; förkasta H 0 då ln T = ln(l 1 ) ln(l 0 ) = l 1 l 0 ln K = K där l 1 = ln L 1 och l 0 = ln L 0.

Icke-parvis ordnat t-test Observationer: x 1,..., x n1 från N(µ 1, σ 2 1), y 1,..., y n2 från N(µ 2, σ 2 2 ). Hypoteser: Testvariabel: H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2 t = x ȳ där s p 1 n 1 + 1 n 2 s 2 p = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2 Under H 0 gäller T t(n 1 + n 2 2)..

Example: Energy production An industrial plant wants to determine which of two types of fuel gas or electric will produce more useful energy at the lower cost. One measure of economical energy production is the plant investment per delivered quad. This is calculated by taking the amount of money (in dollars) invested in the particular utility of the plant and dividing by the delivered amount of energy (in quadrillion British thermal units). The smaller this ratio, the less an industrial plant pays for its delivered energy.

Example: Energy production Independent random samples of 11 plants using electrical utilities and 16 plants using gas utilities were taken, and the plant investment/quad was calculated for each. Data are listed below. Do these data provide sufficient evidence at α = 0.05 to indicate a difference in the average investment quad between all plants using gas and all those using electric utilites? Electric 204.15 0.57 62.76 89.72 0.35 85.46 0.78 0.65 44.38 9.28 78.60 Gas 0.78 16.66 74.94 0.01 0.54 23.59 88.79 0.64 0.82 91.84 7.20 66.64 0.74 64.67 165.60 0.36 [Tavlan]

Parvis ordnat t-test ( stickprov i par ) Observationspar (x 1, y 1 ),..., (x n, y n ) där X i N(µ 1, σ 2 1 ), Y i N(µ 2, σ 2 2 ). Skapa differenser d i = x i y i, där D N(µ D, σ 2 D ). Beräkna d, s D. Hypoteser: Testvariabel: H 0 : µ D = µ 1 µ 2 = 0, H 1 : µ D 0 t = Under H 0 gäller T t(n 1). d s D / n

Example: Safety program The following table gives the average weekly losses of worker-hours due to accidents in 10 industrial plants before and after a certain safety program was put into operation: Before 45 73 46 124 33 57 83 34 26 17 After 36 60 44 119 35 51 77 29 24 11 Use the 0.05 level of significance to test whether the safety program is effective. [Tavlan]

Introduktion av χ 2 -fördelningen Definition. En slumpvariabel X med täthetsfunktion av formen kx f /2 1 e x/2, x > 0 (där k är en normeringskonstant) säges vara χ 2 -fördelad med f frihetsgrader. Skrivsätt. X χ 2 (f ).

Exempel på täthetsfunktioner, χ 2 -fördelningen 0.5 0.45 0.4 df=2 df=5 df=10 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 20

Resultat, χ 2 -fördelningen Om X i, i = 1,..., n är ober. slumpvariabler och X i N(0, 1) gäller att n i=1 X 2 i χ 2 (n), n (X i X ) 2 χ 2 (n 1) i=1 (där X = n i=1 X i/n). Om X i, i = 1,..., n är ober. slumpvariabler och X i N(µ, σ 2 ) gäller att 1 σ 2 n (X i µ) 2 χ 2 (n), i=1 1 σ 2 n (X i X ) 2 χ 2 (n 1) i=1

Användbart resultat För inferens om variansen σ 2 vid stickprov från en normalfördelning är χ 2 -fördelningen användbar. Det gäller att där R = (n 1)S 2 (X) σ 2 χ 2 (n 1) S 2 (X) = 1 n 1 n (X i X ) 2. i=1

Exempel: Sannolikhetsberäkning I en tillverkningsindustri fylls förpackningar med vätska. Man önskar som kvalitetsmått för variationen hos en förpackning utnyttja variansen σ 2, med kravet σ 2 < 0.0025. Från en dags produktion har man tagit n = 10 förpackningar och en stickprovsvarians s 2 kan beräknas. Om, i själva verket, σ 2 = 0.001, beräkna sannolikheten P(S 2 > 0.0025). [Tavlan]

Intervall för σ 2 Antag oberoende, normalfördelade obs. Inför storheten Q = (x i x) 2. Ett intervall för variansen σ 2 ges av ( ) Q Q I σ 2 = (f ), χ 2 1 α/2 (f ) χ 2 α/2 där f = n 1. Ekvivalent uttryck: ( ) (n 1)s 2 I σ 2 = χ 2 α/2 (f ), (n 1)s 2 χ 2 1 α/2 (f )

Exempel (sockerhalt) Bestämning av sockerhalten i betleveranser är väsentlig inom sockerindustrin eftersom odlarna får betalt efter den uppskattade sockermängden i betlassen. Ur en stor mängd sockerbetor uttogs 60 stycken och sockerhalten i procent bestämdes för var och en. Man fann stickprovsstandardavvikelsen s = 1.23. Beräkna ett 95% konfidensintervall för standardavvikelsen σ. [Tavlan] Örtofta sockerbruk.

F -fördelningen Definition. En slumpvariabel X säges vara F -fördelad med f 1 och f 2 frihetsgrader om f X (x) = k x (f 1/2) 1 (1 + f 1 f 2 x) (f 1+f 2 )/2, x 0 Skrivsätt. X F (f 1, f 2 ). Sats. Om X χ 2 (f 1 ), Y χ 2 (f 2 ), X och Y oberoende, och Z = X /f 1 Y /f 2 så gäller att Z F (f 1, f 2 ).

Exempel på täthetsfunktioner, F -fördelningen 1 F(2,2) F(10,10) F(30,30) 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 3.5 4

Exempel (sockerhalt) I ett annat parti sockerbetor (n = 40) fann man stickprovsstandardavvikelsen s = 1.39. Genomför ett F -test för att testa hypotes om lika varianser (α = 0.10). [Tavlan]

F-test, kommentarer Förutsättning: normalfördelade variabler Helst så lika stickprovsstorlekar som möjligt Ej hög styrka, hypotesen σ1 2 = σ2 2 kommer inte förkastas tillräckligt ofta i de fall varianserna faktiskt är olika. Ofta rekommenderas högre signifikansnivå (t.o.m. α = 0.20). A. Agresti, C. Franklin: The F test for comparing standard deviations of two populations performs poorly if the populations are not close to normal. Statisticians do not recommend it for general use because of this.

Procedur vid hypotestest Hypotestest (av väntevärde i normalfördelning) 1. Förutsättningar och antaganden. Kvantitativ variabel, innebörd av väntevärde Oberoende obs. Fördelningen approximativt normal 2. Formulera nollhypotes och mothypotes (en- eller tvåsidig); Exempel: H 0 : µ = µ 0, H 1 : µ µ 0. 3. Formulera testvariabel: t = x µ 0 s/ n 4. Beräkna p-värde (tabell eller dator). 5. Slutsats: Förkasta H 0 om p-värdet mindre än eller lika med signifikansnivån (t.ex. 0.05). Relatera resultatet till det aktuella problemet.

Definition, p-värde Sannolikheten att få ett lika stort (eller extremare, i riktning av mothypotesen) som det observerade, under antagandet att H 0 är sann. Ett lågt p-värde utgör ett starkt skäl mot nollhypotesen H 0. En del forskare fiskar frenetiskt efter låga p-värden!

Exempel: Miljöförorening, batterier Urban storm water can be contaminated by many sources, including discarded batteries. When ruptured, these batteries release metals of environmental significance. A sample of 51 Panasonic AAA batteries found in urban areas around Cleveland gave a sample mean zinc mass of 2.06 g and a sample standard deviation of 0.141 g. Does this data provide compelling evidence for concluding that the population mean zinc mass exceeds 2.0 g? Jennings, A., Hise, S., Kiedrowski, B., and Krouse, C. (2009). Urban Battery Litter. Journal of Environmental Engineering 135, 4657.

Varför är 0.05 en vanlig signifikansnivå? Ett barn har migrän, får antingen läkemedel eller placebo. Lindras smärtan? Inför p = Sannolikheten att smärtlindringen blir bättre med läkemedel Hypotes: H 0 : p = 0.50 mot p 0.50 Scenario: Barn 1: Mår bättre med placebo. Förkasta H 0? Barn 2: Mår bättre med placebo. Förkasta H 0? Barn 3: Mår bättre med placebo. Förkasta H 0?... Barn 5: Mår bättre med placebo. Förkasta H 0?

Varför är 0.05 en vanlig signifikansnivå? Antag att vid 5:e barnet är man villig att tro på att placebo är bättre. Under nollhypotesen p = 0.50 gäller (oberoendeantagande) att sannolikheten för händelsen är (0.50) 5 = 0.03. För ett tvåsidigt test ger detta ett p-värde på 2 0.03 = 0.06 vilket är nära 0.05.

Stora stickprov signifikans via p-värden Exempel: slumptalsgenerering i dator av talen 0, 1, 2,..., 9. Antag likformig fördelning, 0.10 för varje utfall. I ett stickprov, skiljer sig medelvärdet från 4.50? Hypotestest: H 0 : µ = 4.50 mot H 1 : µ 4.50 För två sekvenser (i), (ii) har man i vardera fallet funnit x = 4.40, s = 2.90. Fall (i): n = 100; fall (ii): n = 10 000.

Stora stickprov signifikans via p-värden Medelfel, s/ n: (i): 2.90/ 100 = 0.29, (ii): 2.90/ 10 000 = 0.029 Teststorheter: (i): x µ 0 s/ n = 4.40 4.50 0.29 = 0.345 p-värden: (ii): x µ 0 s/ n = 4.40 4.50 0.029 (i): 0.73, (ii): 0.0006 = 3.45 Lärdom: Var uppmärksam med tolkningar av p-värden för stora stickprov! Statistisk signifikans? Praktisk signifikans?